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التعلم العميق ولتخداماته فى المعلوماتية الحيوية 
0 مشروع تعلم عميق في علم الجينوم وعلم البروتين تم حلها وشرحها 
باستخدام بايثون 


مقدمة المؤلف 

أظهر التعلم العميق نتائج واعدةفي مجال المعلوماتية الحياتية بمافي ذلك علم الجينوم والبروتينات. 
ومع ذلك هناك نقصفي القوى العاملة الماهرةفي التعلم العميقفي هذا التخصص. سيساعد هذا الكتاب 
الباحثين وعلماء البيانات على التميز عن الآخرين وحل مشاكل العالم الحقيقيفي مجال المعلوماتية 
الحياتية من خلال مجموعة من المشاريع. يغطي الكتاب اهم نماذج التعلم العميق المهمة التي يشيع 
استخدامها من قبل مجتمع البحث ويخوض في تفاصيل ماهيتها وكيفية عملها وتطبيقاتها العمليةفي علم 
الجينوم وعلم البروتينات. 

سيكون هذه الكتاب مفيداً للغاية لأولئك الذين o seno‏ مجال الذكاء الاصطناعي الذين يحاولون 
dela b i‏ مجان zal jill‏ الحيانية راركت الاين برق مجان al all‏ العا ie‏ 
يحاولون شق طريقهمني مجال الذكاء الاصطناعي. 


في هذا الكتاب تنقل مشاريع التعلم العميقفي المعلوماتية الحيوية كل المعرفة اللازمة لتنفيذ مشاريع 
التعلم العميقفي مختلف مجالات المعلوماتية الحيوية. كل مشروع من هذه المشاريع فريد من نوعه. 
مما يساعدك على إتقان الموضوع تدريجيًا. ستتعلم كيفية تصنيف تسلسلات الجينوم والبروتين 
باستخدام نماذج التعلم العميق وكذلك ستتعلم الكثير من المشاريع الجذابة الاخرى الي ستساعدكفي 
اكتساب المعرفة لتطوير المعلوماتية الحياتية باستخدام التعلم العميق. 

لقد حاولت قدر المستطاع ان اترجم المشاريع الأكثر em o‏ مجال التعلم العميق للمعلومات 


الحيوية مع الشرح المناسب والكافيء ومع هذا يبقى عملاً بشرياً يحتمل النقص. فاذا كان لديك أي 
ملاحظات حول هذا الكتاب» فلا تتردد بمراسلتنا عبر بريدنا الالكتروني alaa.taima(Q)qu.edu.iq‏ . 


نأمل ان يساعد هذا الكتاب كل من يريد ان يدخلفي مجالات التعلم العميق والمعلوماتية الحيوية 
ومساعدة القارئ العربي على تعلم هذا المجالات. اسأل الله التوفيقني هذا العمل لأثراء المحتوى 
العربي الذي يفتقر أشد الافتقار إلى محتوى جيد ورصيننيٍ مجال التعلم الآلي والتعلم العميق وعلم 
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جامعة القادسية 
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1 تطبيق خوارزميات التعلم الآلي لتصنيف بيانات الجينوم 


Apply تطبيق خوارزميات التعلم الآلي لتصنيف بيانات الجينوم‎ (1 
IMachine Learning Algorithms for Genomics Data Classification 
المقدمة‎ 

1. نظرة عامة 

في مجالات الاحياء الجزيئية molecular biology‏ وعلم الوراثة .genetics‏ الجينوم genome‏ هو 
كل المواد الجينية للكائن الحي. يتكون من حمض نووي ريبوزي منقوص الأكسجين DNA‏ (أو 
حمض نووي ريبوزي GRINA‏ فيروسات (RNA‏ يتضمن الجينوم NS‏ من الجينات genes‏ (مناطق 
الترميز (coding regions‏ والحمض النووي غير المشفر non-coding DNA‏ بالإضافة إلى 
الحمض النووي للميتوكوندريا mitochondrial DNA‏ والحمض النووي للبلاستيدات الخضراء 
-chloroplast DNA‏ تسمى دراسة الجينوم علم الجينوم genomics‏ يتضمن تفاعلات الجينات 
مع بعضها البعض ومع بيئة الشخص. تستخدم البيانات الجينوميةني مجال المعلوماتية الحيوية 
5+ لجمع وتخزين ومعالجة جينومات الكائنات الحية. تتطلب معالجة البيانات 
الجينومية قدرًا كبيرًا من تخزين البيانات وأجهزة وبرامج عالية الأداء للتحليل الإحصائي. 

التعلم الآلي Machine Learning (ML)‏ هو تطبيق للذكاء الاصطناعي Artificial Intelligence‏ 
CAT)‏ يتيح التعلم التلقائي والتحسين من التجربة دون البرمجة الصريحة والمعرفة ببيئة التعلم. الهدف 
الهم هو تطوير ونشر نظام كمبيوتر يمكنه التعلم GUB‏ دون أي تدخل بشري. بحكم التعريف يجب أن 
تكون قادرة على تعديل إجراءاتها من النتائج السابقة. 


أصبح التعلم الآلي أحد الأساليب الرئيسية للعديد من مهام أبحاث الجينوم اليوم» بمافي ذلك: 


وصف وتفسير مجموعات البيانات الجينومية واسعة النطاق. 

شرح لمجموعة واسعة من عناصر تسلسل الجينوميات. 

توقع تأثير الاختلاف الجيني على تسلسل -DNA / RNA‏ 

تحديد احتمالية الإصابة بمرض معين وكذلك تحديد الوراثة الجينية. 

التعرف على الأنماط ووضع التنبؤات ووضع نموذج لتطور مرض معين أو علاجه. 

يمكن أن تكون التطبيقات المستقبلية للتعلم الآليني علم الجينوم: علم الصيدلة الجيني 
«Pharmacogenomics‏ وÎدg‏ ات الفحص الجيني لحديثي الولادة newborn genetic‏ 
screening tools‏ والزراعةء وما إلى ذلك بناءً على أنواع مشاريع التعلم e JII‏ يمكننا تحديد تطبيقات 
محددة. للتصنيف (التعلم الخاضع للإشراف :(Supervised Learning‏ تصنيف التسلسلات الأقصر 


حم ذخ هن لح صن 


«species والأنوا اع‎ .genus والجنس‎ .phylum (الشعبة‎ classes ots إلى‎ shorter sequences 
؛‎ phylogenetic inference of the sequences وما إلى ذلك)؛ الاستدلال النشئي للتسلسلات‎ 


التعلم العميق واستخداماته في المعلوماتية الحيوية 


الكشف عن البلازميدات plasmids‏ والكروموسومات .chromosome‏ إيجاد مناطق الترميز 
tcoding regions‏ التنبؤ بالكروموسومفي الجينوميات البشرية؛ إلخ للتكتل clustering‏ (التعلم غير 
الخاضع للإشراف :(Unsupervised Learning‏ تجميع كونتيكات الميتاجونومية binning of‏ 
*metagenomics contigs‏ تحديد البلازميدات والكروموسومات؛ يقرأ التكتلفي الكروموسومات 


لتكتل أفضل؛ تجميع القراءات كمعالج أولي لتجميع القراءات» إلخ. 


في هذا المشروع» سوف نفهم بنية تسلسل DNA / RNA‏ / البروتين والتلاعب بها باستخدام مكتبات 
1 . سيوضح كيف يمكن استخدام خوارزميات التعلم الآلي لتصنيف تسلسل الحمض النووي 
sed [DNA‏ ارون الريبي 14 البروتين e Rec‏ سيم Dad p‏ کار بين موا زميات 
تصنيف التعلم الآلي التقليدية والحديثة لمجموعات البيانات الجينومية. سيتم تقديم مكتبة PyDNA‏ 
بسيطةفي Python‏ لمعالجة سلاسل تسلسل DNA | RNA‏ | البروتين وخوارزميات تصنيف التعلم 
الألي. 

2. تسلسل الحمض النووي 

استنادًا إلى المعهد الوطني لبحوث الجينوم البشري national Human Genome Research‏ 
Institute‏ فإن الحمض النووي الريبي منقوص الأكسجين Deoxyribonucleic Acid (DNA)‏ 
ھر رکب كيمياق يتكرن می التعليمات sols ejl‏ ونوج a‏ جم Xii iod cott‏ 
جزيء الحمض النووي هو هيكل حلزون مزدوج يتكون من خيطين مزدوجين ملتويين. يتكون الحمض 
النووي من أربع قواعد هي الأدينين adenine [A]‏ السيتوزين cytosine [C]‏ الجوانين guanine‏ 
[G]‏ أو الثايمين thymine [T]‏ تسلسل الحمض النووي DNA sequence‏ عملية مختبرية 
لتحديد تسلسل هذه القواعد الأربعةني جزيء الحمض النووي. يمكن العثور على مزيد من المعلومات 
عوك اسل اليش Miet T‏ اسل E‏ 


دعونا نلقي نظرة على معالجة سلاسل تسلسل الحمض النووي DNA sequence strings‏ 
manipulation‏ باستخدام مکتبات -Python‏ تم ias‏ جميع استدعاءات الدوال المقدمةفي مكتبة 


d مزيد من الشرح حول هذه المكتبة موجود‎ PYDNA تسمى‎ Python مخصصةني‎ DNA 
هذه المقالة.‎ 


3. التحقق من سلسلة تسلسل الحمض النووي 

يجب أن تحتوي سلسلة تسلسل الحمض النووي على أربعة نيوكليوتيدات قاعدية four base‏ 
"C" A" "[ nucleotides‏ "6" '1""]. تسمح هذه الدالة بالتحقق من تسلسل الحمض النووي 
باستخدام أي قاعدة مخصصة محددة من النيوكليوتيدات. 
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مثال: 
dna sequence string -‏ 
"ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTT"‏ 
is dna result = PyDNA.is dna(dna sequence string)‏ 
print (DNA sequence string:\n{}7. format (dna sequence string))‏ 
print("Is DNA:Nn()".format(is dna result))‏ 
النتائح: 
c‏ 
DNA Sequence SENGE‏ 
ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTT‏ 
Is DNA:‏ 
fure‏ 
مثال: 
dna sequence string ES‏ 
"ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTFE"‏ 
Che e Shi = PyDNA.is dna(dna sequence string)‏ كبك 
print ("DNA sequence string: Mn()".format(dna sequence string))‏ 
print("Is DNA:WMn()".format(is dna result))‏ 
النتائح: 
c‏ 
DNA sequence string:‏ 
ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTFE‏ 
Is DNA:‏ 
False‏ 
4. عد النيوكليوتيدات القاعدية فى السلسلة النصية لتسلسل الحمض النووى 
تسمح الدالة أدناه بحساب نيوكليوتيدات تسلسل الحمض النووي DNA‏ بأي قاعدة مخصصة محددة. 
سيتم إرجاع طول تسلسل الحمض النووي Lai‏ 
مثال: 
dna sequence string -‏ 
"ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTTTTT ^‏ 
base sequence count, dna sequence length -‏ 
PyDNA.dna count nucleotide (dna sequence string,‏ 
TOP Me UM. xe einn epe)‏ كور" bese sectence=|‏ 
print (DNA sequence string:\n{}7. format (dna sequence string))‏ 
print (DNA nucleotides count:\n{}“. format (base sequence count) (‏ 
print (DNA length: \n{}7. format (dna sequence length) )‏ 
النتائح: 
c‏ 


DNA sequence string: 
ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTTTTT 
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DNA nucleotides count: 

(Sv ere toc ا‎ 237 
DNA length: 

55 


idea 


dna sequence string E 
"ATYTRTCCYGGYAATRYTCGTAGTTAGRCTGATYTTATTGGYGCGAARATTYYTR"base sequence 


count, dna sequence length = 
PyDNA.dna count nucleotide (dna sequence string, 

BESE SELENE © AC M MIN TS LENG ENS LEE OE IRE NA 
Nucleotide Count:\n{}7. format (base sequence count) )print ("DNA 


length: Nn()".format(dna sequence length) ( 

النتائج: 
DNA Nucleotide Count:‏ 
Tov Io Me ret IPIS antec CENT e iii S s ey‏ 


DNA length: 
55 


5. عكس سلسلة تسلسل الحمض النووي 
تعمل الدالة التالية على عكس reverse‏ السلسلة النصية string‏ تسلسل الحمض النووي DNA‏ 


مڅال: 

dna sequence string > 
"ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTTTTT ^ 
dna reverse sequence = PyDNA.dna sequence reverse(dna sequence string) 
print (DNA Sequence String: Nn()".format(dna sequence string)) 
print (“Reverse DNA sequence: Wní)".format(dna reverse sequence)) 

النتائح: 

c 


DNA Sequence String: 
ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTTTTT 
Reverse DNA sequence: 
TTTTTTAAAAGCGCGGTTATTTTAGTCGGATTGATGCTTTTAAGGGCCCTATATA 


6. استكمال سلسلة تسلسل الحمض النووي 
يعتمد استكمال complementation‏ تسلسل DNA‏ على IUPAC Degeneracdies‏ 


. Conversion 


مثال: 


dna sequence test - 
"ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTTTTT" 
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dna complement sequence - 

PyDNA.dna sequence complement (dna sequence test) 

print (DNA sequence string:\n{}7. format (dna sequence test)) 

print (“Complement DNA sequence:\n{}7. format (dna complement sequence) ) 


النتائج: 


DNA sequence string: 
ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTTTTT 
Complement DNA sequence: 
TATATAGGGCCCTTAAAAGCATCAATCCGACTAAAATAACCGCGCTTTTAAAAAA 


7. عكس-استكمال السلسلة النصية تسلسل الحمض النووي 
يتم تنفيذ الاستكمال العكسي reverse- complement‏ لسلسلة النصية لتسلسل 10115 باستخدام 


.dna sequence complement) t » dna sequence reverse() الدالتين‎ 


مثال: 

dna sequence string - 
"ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTT" 
dna reverse complement sequence > 
PyDNA.dna sequence reverse complement (dna sequence string) 
print (DNA sequence string:\n{}7. format (dna sequence string)) 
print("Reverse-Complement DNA 
sequence: Mn()".format(dna reverse complement sequence)) 

النتائح: 

c 


ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTT 
AAATTTTCGCGCCAATAAAATCAGCCTAACTACGAAAATTCCCGGGATATAT 


ac .8‏ محتوى GC‏ في السلسلة النصية لتسلسل الحمض النووي 
يمثل محتوى (GC- Content) GC‏ النسبة المئوية للقواعد النيتروجينيةفي تسلسل الحمض النووي 
DNA‏ أو الحمض النووي الريبي RNA‏ 


مثال: 

dna sequence string - 
"ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTT" 
gc content = PyDNA.dna count gc content(dna sequence string) 
print (DNA sequence string:\n{}7. format (dna sequence string)) 
print ("GC-content:Mn(j)".format (gc content)) 

النتائح: 

© 


DNA sequence string: 
ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTT 
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GC-content: 
30.56 


9. تحويل السلسلة النصية لتسلسل الحمض النووى إلى مصفوفة NumPy‏ 

تعد Python‏ الرقمية (NumP y)‏ مكتبة رئيسية للغة (Python ize p‏ مما يضيف es‏ للمصفوفات 
والمصفوفات الكبيرة متعددة الأبعاد. جنبًا إلى جنب مع مجموعة كبيرة من الدوال الرياضية عالية 
المستوى للعمل على هذه المصفوفات. هذه المكتبة هي واحدة من أسرع المكتبات المتوفرةفي نظام 
بيانات Python‏ اليوم. 


يتم تجميع برنامج NumPy‏ الأساسي وكود C‏ المحسن جيدا. لهذا السبب يوصى بشدة باستخدامها 
في علم الأحياء الحاسوبي Computational Biology‏ والمعلوماتية الحيوية Bioinformatics‏ 
لمعالجة سلسلة عالية الأداء وخوارزميات التعلم الآلي. لا يزال العديد من علماء البيانات يستخدمون 
كائنات القائمة List‏ / المجموعات Sets‏ / القاموس Dictionary‏ لمعالجة السلاسل النصية strings‏ 
-Python manipulation‏ يشتكي البتعض منهم من ol‏ لغة £l Python‏ جد عندما يكتبون أكواد 
برمجة رديئةفي عملهم اليومي. أوصي sla‏ أصدقائي علماء او مهندسي البيانات بأخذ دورات متقدمةفي 
برمجة Python‏ قبل كتابة سطر واحد من كود Python‏ عندما تسنح لك الفرصةء أود أن تقرأ ورقة 
المدونة التالية للمتعة: "إعادة هيكلة كود بايثون لمشاريع التعلم الآلي. Python "Spaghetti Code"‏ 


" IEverywhere 


يوجد أدناه كود دالة PYDNA‏ لتحويل السلسلة النصية لتسلسل DNA‏ إلى مصفوفة NumPy‏ أحادية 


البعد. 
620 6531 
def dna sequence np array(dna sequence string):‏ 
dna sequence array - None‏ 
Ery:‏ 
dna sequence string - dna sequence string.lower()‏ 
rege cege = re eonmpiislte meia‏ 
L tregesqdedgiesegsnehdmagsecmuencem serine) == Nane) s‏ 
dna sequence array = np.array(list(dna sequence string))‏ 
else:‏ 
dna sequence array - None‏ 
exocepr:‏ 
print(PyDNA.get exception info ())‏ 
if PyDNA. app is log: PyDNA.write log file("error",‏ 
PyDNA.get exception info())‏ 
return dna sequence array‏ 
مثال: 


dna sequence string - 
"ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTTTTT" 
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dna np array > PyDNA.dna sequence np array(dna sequence string) 
print (“DNA sequence string:\n{}7. format (dna sequence string)) 
print("DNA NumPy array:Nní)".format(dna np array)) 


النتائج: 


DNA sequence string: 
ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTTTTT 

DNA NumPy array: 

[^at Wis 557 We 55 E U gl Ue U gil Don IGN Jj 557 DN Ure iq M VEN 
Use Ue Ug aes A cens Use Ll Uy ' 
Ug Usage Usu Ug: i Ug Je a 5 Dons Ute M Dons D Ue ' 
Ug u Ug Ug u Dp 


0. البحث عن أنماط تسلسل الحمض النووي 

يعد البحث عن أنماط تسلسل الحمض النووي DNA Sequence Patterns‏ مهمة قياسيةفي 
المعلوماتية الحيوية اليوم بمافي ذلك مجالات البروتين protein domains‏ وأشكال ربط عامل نسخ 
الحمض النووي DNA transcription factor binding motifs‏ ومواقع قطع إنزيم التقييد 
«restriction enzyme cut sites‏ ومواقع تمهيدي PCR‏ المتدهورة degenerate PCR‏ 
«primer sites‏ وتشغيل أحاديات النيوكليوتيدات runs of mononucleotides‏ وغيرها الكثير. 
تحتوي مكتبة PYDNA‏ على طريقة dna sequence pattern)‏ بسيطة للعثور على أنماطفي 
الما ال مل EROR‏ 2 1 


@staticmethod 

def dna sequence pattern(dna sequence string, dna sequence pattern): 
seartch'result = Fals 

Ex 
search pattern = re.search(dna sequence pattern.lower(), 
dna sequence string.lower (J) 

if search pattern: search result - Tru 

except: 

print(PyDNA.get exception info ()) 

Lr PYDNA cgo SI logs PDA تعن‎ Tog Eile eon 
PyDNA.get exception info()) 

FOEUEN 522611 FES E 


دعونا نلقي نظرة على بعض الأمثلة. 
مثال 1. 


dna sequence string - 
"ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTTTTT" 
dna sequence pattern = "AATTTT" 

result = PyDNA.dna sequence pattern(dna sequence string, 
dna sequence pattern) 
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print (result) 
True 


مثال 2: 


dma Seque5 cem Ss ge 
"ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTTTTT" 
dna sequence pattern < "AATTTTAA" 

result = PyDNA.dna sequence pattern(dna sequence string, 
dna sequence pattern) 

print (result) 

Hase 


1 . ترجمة السلسلة النصية لتسلسل الحمض النووي إلى بروتين 
لترجمة translate‏ تسلسل الحمض النووي إلى بروتينات» يتم استخدام مخطط الشفرة الوراثية 
للحمض النووي .DNA Genetic Code Chart‏ 


idèa 
dna sequence string > "ATGGAAGTATTTAAAGCGCCACCTATTGGGATATAAG" 
protein translation - 
PyDNA.dna protein translation(dna sequence string) 
print (DNA sequence string:\n{}7. format (dna sequence string)) 
print("Protein translation: Nn(]".format(protein translation)) 
النتائح:‎ 
c 
DNA sequence string: 
ATGGAAGTATTTAAAGCGCCACCTATTGGGATATAAG 
Protein translation: 
MEVFKAPPIGI 
نسخ السلسلة النصية لتسلسل الحمض النووى إلى السلسلة النصية‎ .12 
لتسلسل الحمض النووي الريبي‎ 


تقوم الدالة الموجودة أدناه بنسخ السلسلة النصية لتسلسل الحمض النووي DNA‏ إلى السلسلة النصية 
string‏ لتسلسل الحمض النووي الريبي RNA‏ 


QE 


dna sequence string > "ATGGAAGTATTTAAAGCGCCACCTATTGGGATATAAG" 

rna transcription - PyDNA.dna rna transcription(dna sequence string) 
print (DNA sequence string:\n{}7. format (dna sequence string)) 
print("RNA transcription: NMn(]".format(rna transcription)) 
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DNA sequence string: 
ATGGAAGTATTTAAAGCGCCACCTATTGGGATATAAG 
RNA transcription: 
AUGGAAGUAUUUAAAGCGCCACCUAUUGGGAUAUAAG 


jio B .13‏ السلسلة النصية لتسلسل الحمض النووي 

لاستخدام السلسلة النصية لتسلسل الحمض النوويفي مشاريع التعلم الآلي. يجب ترميزها أولاً. لا تعمل 
خوارزميات التعلم الآلي الرياضية مع البيانات النصية الفثوية text categorical data‏ اعتمادًا على 
خوارزمية التعلم الآلي المحددةء هناك ثلاثة أنواع رئيسية من ترميز السلسلة النصية لتسلسل الحمض 
النووي: 


1. ترميز التسمية :Label Encoding‏ هذا ترميز التسمية(العادي/01011121) سوف يقوم بترميز 
كل نوكليوتيد أساسي كقيمة عددية مخصصة. بشكل cele‏ لتكون أكثر دقة مع خوارزميات التعلم الآلي. 
يتم استخدام الأرقام العشرية floating‏ (العشرية (decimal‏ قبل تطبيق هذا الترميز. يجب تحويل 
سلسلة تسلسل الحمض النووي إلى مصفوفة NumPy‏ أحادية البعد. هذا النوع من الترميز شائع جد 
في التعلم الخاضع للإشراف باستخدام مكتبة «تدء.[-50116.في المثال cool‏ سيتم ترميز السلسلة 
النصية للتسلسل S'ACGT"‏ ]0.50.25 0.75: 1.0]. 


مثال: 


dna sequence string - 
"ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTTTTT" 
dna np array = PyDNA.dna sequence np array(dna sequence string) 
dna label encoder = PyDNA.dna label encoder (dna np array) 

print (DNA sequence string:\n{}7. format (dna sequence string)) 
print("DNA NumPy array:Nní]".format(dna np array)) 

print (“Custom Label Encoding: Nn()".format(dna label encoder)) 


النتائج: 


DNA sequence string: 
ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTTTTT 

DNA NumPy array: 

[^w med EVA eA OA EA Vie Ie بعد‎ XML بوا‎ weit MEA وا بجا‎ Nu. EZ 
wA Mew. wey Mi بحا‎ Nep EM mp New. wem ب‎ S No ad لد‎ EA 
و یت با ا بوا ا د‎ E G4 o EL 
ب‎ tA 

Custom Label Encoding: 

[0525 Le 05225 i. 0525 X. 0,9 OS 0.5 OnT OS O.75 0.29 O.25 1. i; i5 
1, 045 0.75 i. 0.25 0-75 15, ls 0429 0.75 0575 WS ls 0.75 0.25 15 1s 
1, d, 0,289 f. io 0.75 0.75 0.5 0.75 OQ.» 0.75 U.25 05.29 0.29 (0,259 l. ls 
Ji. 3b و‎ 35 i] 


gi 
git 
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2. ترميز واحد ساخن Dle :One-hot Encoding‏ ما يستخدم هذا الترميزفي الشبكات العصبية 
الاصطناعية ġ.Artificial Neural Networks (ANN)‏ كثير من coUe MI‏ يُطلق على ANN‏ اسم 
التعلم العميق -Deep Learning‏ التعلم العميق (المعروف أيضًا باسم التعلم المنظم العميق Deep‏ 
(Structured Learning‏ هو جزء من مجموعة أوسع من أساليب تعلم IYI‏ القائمة على ANN‏ مع 
التعلم التمثيلي .representation learning‏ وهو يتضمن البنى الرئيسية التالية: الشبكات العصبية 
العميقة Deep Neural Networks (DNN)‏ شبكات الاعتقاد العميق Deep Belief‏ 
Networks (OBN)‏ الشبكات العصبية المتكررة Recurrent Neural Networks (RNN)‏ 
والشبكات العصبية التلافيفية .Convolutional Neural Networks (CNN)‏ يمكن لمكتبتي 
scikit-Learn‏ و Keras‏ توفير تطبيق الترميز هذا. بالنسبة للقاعدة القياسية للنيوكليوتيدات» فإن سلسلة 
التسلسل "ACGT"‏ ستكون مشفرة على أنها [[1. 0. 0. 0.] ]0.0.1.0.[ [0. 0. 1- 0.] [0. 0. 
1.0.[[ باستخدام مصفوفة cg t'] NumPy‏ '2]. 


مثال: 


dna sequence string - 
"ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTTTTT ^ 
dna np array > PyDNA.dna sequence np array(dna sequence string) 
dna one hot > PyDNA.dna onehot encoder(dna np array) 

print (DNA sequence string:\n{}7. format (dna sequence string)) 
print("DNA NumPy array:Nníj".format(dna np array)) 

print("DNA One-Hot Encoding with Scikit-Learn 

framework: Nn()".format(dna one hot)) 


النتائج: 


DNA sequence string: 
ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTTTTT 

DNA NumPy array: 

ikas NEE we VEE wm id Mp Mg Mg Mond end "ii" "e wa wg WE Mig 
1 NE Me EES "iol Me Miel d 
wg ud Me Mig TEE 


3 ad 0 Magi Me "e ME ME au 
MET wE we d WE Mud Mond wg Bond 
Mig EES Mie NI 

DNA One-Hot Encoding with Scikit-Learn framework: 


Ygl 
X 


[i5 0s © Os] KOs. 0o O tol [is O. O. O0.) lU. Os O. Lol lL. Os O. 0.) 
Da Oo Oo La Qs Lo Qo W Q l O. 0, Qo La (5 Oo 05 Qo Xs 0) 
O5 Os i5 O Q5 Os X5 0 l5 Qs (s O ds Ul QU. O 0. Os Oo Jio 
Us O (9s Qu Qs Us Jis Qs Qu Q d. Us Jis (y (Q9 Us, O, 15 O 
0s (Qs. Qs l5 Os Oa 0 Q5 Qs ds O; Us Qs Oo d. Os Os (Qs 

ls O Os 0 Qs Qs 3s (s Qs Qs 3. O 0 s f 0. Us (9. (9 

Oa Os i5 0 l5 Os Oa 05 Q5 QU. Os Oo Oo QU. Lo 0. Os Oo T, 
Us O, (Q d. ls Qs (Q (s Qs Qs Q d. Us Qs Q d. Us 9. X5 O 
Oo Oo La 0; Q Lo Oe fO Qs Oo to O, Qo La 03 Oo 05 Qo Lo 0) 
ls Os Oo 0 ds Qs Os M ls Qs fü. O ds Qs Q (9. 0 (9. (Qs 

0. Os Qs Q5 Oy, Oo Lo Q5 Oa Os O Qs O. Js Ü (QU Ue ] 


1 تطبيق خوارزميات التعلم الآلي لتصنيف بيانات الجينوم 


يمكن تقديم نفس النتائج باستخدام مكتبة -Keras‏ 


dna sequence string - 
"ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTTTTT" 
dna np array > PyDNA.dna sequence np array(dna sequence string) 
dna one hot — PyDNA.dna onehot encoder keras(dna np array) 


print (“DNA sequence string:\n{}7. format (dna sequence string)) 
print("DNA NumPy array:Nní]".format(dna np array)) 

print("DNA One-Hot Encoding with Scikit-Learn 
framework: \n{}*. format (dna one hot)) 


3. عد (3:[K-mer Counting]K-mer‏ المعلوماتية الحيوية « k-mers‏ هي تكرارات الطول 
الموجودةفي التسلسل البيولوجي .biological sequence‏ عادة. يشير المصطلح K-mer‏ إلى كل 
التسلسل التالي من الطول ek‏ بحيث يحتوي تسلسل AGAT‏ على أربعة مونومرات A ) monomers‏ 
AGA) mers 3 ots. (AG, GA, AT) -mers2 #6. (T «A «G <‏ و (GAT‏ وواحد 
(AGAT) mer-4‏ - من تعريف -k-mer‏ بشكل عام c‏ يسمح تحليل تسلسل إلى قطع ذات حجم 
ثابت k-mers‏ بمعالجة السلسلة النصية بسرعة وسهولة. يتم تطبيق هذا بحكمةفي طريقة حقيبة 
الكلمات bag of words‏ لمعالجة اللغة الطبيعية Natural Language Processing (NLP)‏ 
لخوارزميات التعلم الآلي. سيتم تغطية هذه الطريقةفي الموضوع التالي. 


dna sequence string - 
"ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTT" 

k mer list, k mer numpy array > PyDNA.k mer words(dna sequence string, 
k mer length-6) 

print (DNA sequence string:\n{}7. format (dna sequence string)) 
print("K-mer st: MI Aroma Ek mer list)) 

print("K-mer array: Mi Format (E mer numpy array)) 


النتائج: 


DNA sequence string: 
ATATATCCCGGGAATTTTCGTAGTTAGGCTGATTTTATTGGCGCGAAAATTT 

K-mer list: 

[EEE ; “tecate و‎ arete ى‎ "Eeueeo/,: Vues, "ec. CERE y 
7909006090277 CISTI, COOSA, 06 n 0 ^ ع تت‎ GCE, 
7600 ". ع ع‎ | LEGIT, "Een. "eir; Voie "ts n 
EEE, Wen. Bee "Bee. "esperes", ege "Stc 
Mete suEIE" ^ ات‎ p الع ات‎ 7; CECOT y لالتعا عا عع‎ y SECC 7; CCA, 
”رورم اا‎ P. Meunier pore "eese. exert eese" y CICA, 
'gcgaaa', 'cgaaaa', "gaaaat', "aaaatt', "aaattt'] 

K-mer array: 

|] enssureuE" ACEC, EAE rearea” "euer "ees" "ces 
ECOL EOE ooge لهم تتم اال‎ EEG 
"و‎ WEEE EES “recie CSET "ense "Ese 
aGEEAG "ence "else. "eer ever "eme Yel" 
EEE “gegawe” EEE acerca teeter "Eid "Ete 
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Weert EESTI, tt cro eg وعم كاعر‎ egege" 0666217“ 
'qcgaaa' "'cgaaaa' "gaaaat' "aaaatt' "aaattt'] 


14. حقيبة الكلمات للسلسلة النصية لتسلسل الحمض النووي 

تسلسل الحمض النووي هو عبارة عن بيانات نصية بسيطة غير منظمة -unstructured text data‏ 
لهذا السبب» يجب أن تكون المعالجة اللغوية الطبيعية NLP‏ أداة ممتازة لاستخدامها من أجل ذلك. 
الفكرة الرئيسية لاستخدام المعالجة اللغوية الطبيعية هي السماح لأجهزة الكمبيوتر بفهم النص غير 
المنظم واسترداد أجزاء ذات معنى من المعلومات لاتخاذ قرارات العمل. المعالجة اللغوية الطبيعية هو 
جزء من نظام الذكاء الاصطناعي. 

حقيبة الكلمات Bag of words‏ هي إحدى الطرق المستخدمةفي المعالجة اللغوية الطبيعية. وتتمثل 
مهمتها الرئيسيةني تحويل بيانات النص الخام إلى كلمات وإحصاء تكرارهاني النص. ترتيب هذه 
الكلماتفي النص غير مناسب. بالنسبة للمستند النصي» يتم إنشاء مصفوفة من عدد الرموز المميزة 
token‏ بشكل cele‏ تمثل هذه المصفوفة متجه الميزات features vector‏ النهائية التي سيتم تطبيقها 
في خوارزميات التعلم الآلي.في مثالنا baf‏ فإن قائمة k-mers‏ لتكرارات الحمض النووي اللاحقة هي 
معلمة الإدخال لتوليد حقيبة الكلمات لها. 


مثال: 


k mer liet = 38858157 52556“ GLACE ACCC y PETECE y 
CECE y eCe y MECC 7 eee. eee] 

word ngram > 

k mer token count > PyDNA.bag of word list(k mer list, word ngram) 
print("K-mer list: Nn()".format(k mer list)) 

print("Word ngram:Nníj".format (word ngram)) 

print("K-mer matrix token 


counts:Nn()".format(k mer token count.toarray())) 
النتائج:‎ 


K-mer list: 

EEE p “catete y aretes" p Cace y ees, "GS, eG" p 
'cecggga', "'cgggaa', "gggaat'] 

Word ngram: 


K-mer matrix of token counts: 
I1 O OC OC O 9 O O 
0 


O يقي‎ emp qe»y fev em 
OG OOGO تن ےا ات‎ 
(em) GOO HOGG 
(ey ےا‎ OOG O O 
AHO dem qe» e» fem em 
OG OGOGO ات‎ GG © 
(em) G O OOGG 
نه ت‎ O esp O = 
© O emp :3ك يق‎ (emn 
OO I OGOGO © 


1 تطبيق خوارزميات التعلم الآلي لتصنيف بيانات الجينوم 


5. تسلسل الحمض النووى الريبي RNA‏ 

استنادًا إلى المعهد الوطني لبحوث الجينوم البشري» Ribonucleic Acid RNA) ob‏ هو حمض 
نووي مشابهفي هيكله للحمض النووي DNA‏ ولكنه يختلف بطرق خفية. تستخدم الخلية RNA‏ 
عدد من المهام المختلفة« أحدها يسمى RNA‏ المرسال messenger RNA‏ أو lias .mRNA‏ 
هو جزيء معلومات الحمض النووي الذي ينقل المعلومات من الجينوم إلى بروتينات عن طريق الترجمة 
translation‏ شکل آخر من أشكال الحمض النووي الريبي هو حمض نووي ريبوزي ناقل ERNA‏ 
أو transfer RNA‏ وهذه جزيئات الحمض النووي الريبي غير المشفرة للبروتين والتي تحمل bes‏ 
الأحماض الأمينية amino acids‏ إلى موقع الترجمة الذي يسمح بتجميعهاني سلاسل من البروتينات 
في عملية الترجمة. 


يقوم تسلسل الحمض النووي الريبي بتحليل النسخة الخلوية المتغيرة باستمرار باستخدام تقنيات 
تسلسل الجيل التالي (NGS). Next-Generation Sequencing (NGS)‏ هي عملية ia‏ 
واسعة النطاق تحقق التسلسل السريع لأزواج القواعدني عينة DNA‏ أو RNA‏ مكن NGS‏ الباحثين 
تطبيقات INGS‏ مجموعة متنوعة من التقنيات الحديثة مثل تسلسل الجينوم الفيروسي الكامل عالي 
الإنتاجية high-throughput complete viral genome sequencing‏ واكتشاف تقلب جينوم 


.evolution in a host والتطورفي مضيف‎ virus genome variability detection الفيروس‎ 


دعونا نلقي نظرة على بعض دوال PYDNA‏ لدعم معالجة السلاسل النصية لتسلسل الحمض النووي 
الريبي RNA‏ 


6. التحقق من صحة السلسلة النصية لتسلسل الحمض النووي الريبي 
يجب أن تحتوي سلسلة تسلسل الحمض النووي الريبي على أربعة نيوكليوتيدات قاعدية [" dC" A"‏ 
"6" ]""]. تسمح هذه الدالة بالتحقق من تسلسل الحمض النووي الريبي RNA‏ باستخدام أي 


نيوكليوتيدات أساسية مخصصة .custom base nucleotides‏ 
مثال: 


rna sequence string - 
"AUGGCCAUGGCGCCCAGAACUGAGAUCAAUAGUACCCGUAUUAACGGGUGA" 

is rna result = PyDNA.is rna(rna sequence string, 

Base SEQUEL CO AC MM 

print (RNA sequence string:\n{}7. format (rna sequence string) ) 
print("Is NAS NANE. EOE (LS rna result)) 


N 
o3 
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RNA sequence string: 
AUGGCCAUGGCGCCCAGAACUGAGAUCAAUAGUACCCGUAUUAACGGGUGA 
Is RNA: 

True 


rna sequence string > 
"AUGGCCTUGGCGCCCAGAACUGAGAUCTAUAGUACCCGUAUUAACTGGUGA" 

abs Tia result = EVDA la ENA (Genel هوت‎ SEEING 

bese sSectencs= M CE E, UE 

print (“RNA sequence string:\n{}”.format (rna sequence string) ( 
DEDE ) 1-5 :سالك‎ mE orma ESS rna result)) 


RNA sequence string: 
AUGGCCTUGGCGCCCAGAACUGAGAUCTAUAGUACCCGUAUUAACTGGUGA 
Is RNA: 

False 


النتائج: 


النتائج: 


7. عد النيوكليوتيدات الأساسية في السلسلة النصية لتسلسل الحمض النووي 


una 

تتيح الدالة أدناه عد نيوكليوتيدات تسلسل الحمض النووي الريبي مع أي قاعدة مخصصة محددة. يتم 
إرجاع طول تسلسل UAI RNA‏ 

مثال: 


rna sequence string > 
"AUGGCCAUGGCGCCCAGAACUGAGAUCAAUAGUACCCGUAUUAACGGGUGA" 

base sequence count, rna sequence length —- 
PyDNA.rna count nucleotide (rna sequence string, 

base دهم ومس ههه‎ AA; Cr OF, wg]. AS iesmtonelaes Tbe) 

print (RNA sequence string:\n{}7. format (rna sequence string)) 
print (RNA nucleotides count: NMn(j".format(base sequence count) ( 
print (RNA length:\n{}7“. format (rna sequence length) ) 


RNA sequence string: 
AUGGCCAUGGCGCCCAGAACUGAGAUCAAUAGUACCCGUAUUAACGGGUGA 
RNA nucleotides count: 

AEs dO. CS T. Wes a Mo e DON 

RNA le 


النتائج: 
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18. ترجمة السلسلة النصية لتسلسل الحمض النووى الريبي إلى بروتين 

لترجمة تسلسل الحمض النووي الريبي إلى بروتينات» يتم استخدام مخطط الشفرة Code Chart‏ 
الجينية ل RNA‏ 

Es 


rna sequence string - 
"AUGGCCAUGGCGCCCAGAACUGAGAUCAAUAGUACCCGUAUUAACGGGUGA" 


protein translation = PyDNA. 
rna protein translation(rna sequence string) 
print ("RNA Sequence string:\n{}7. format (rna sequence string)) 


print("Protein translation: Nn(]".format(protein translation)) 
النتائح:‎ 
c 


RNA sequence string: 
AUGGCCAUGGCGCCCAGAACUGAGAUCAAUAGUACCCGUAUUAACGGGUGA 
Protein translation: 

MAMAPRTEINSTRING 


9. التراصف التسلسلي لحمض النووي والحمض النووي الريبي والبروتين 

تعد التراصف التسلسلى Sequence alignment‏ طريقة لترتيب تسلسل الحمض النووي أو الحمض 
النووي الريبي أو البروتين لتحديد مناطق التشابه التي قد تكون نتيجة للعلاقات الوظيفية أو الهيكلية أو 
التطورية بين التسلسلات. يتم تمثيل التسلسلات المتراصفة LUJ Aligned sequences‏ الأحماض 
الأمينية أو النيوكليوتيدات عادة كصفوف داخل مصفوفة. يتم إدخال الفجوات بين البقايا بحيث يتم 
محاذاة الأحرف المتطابقة أو المتشابهةفي أعمدة متتالية. يُستخدم التراصف التسلسلي Ca‏ للتسلسلات 
غير البيولوجيةء مثل حساب تكلفة المسافة بين السلاسلفي لغة طبيعية أوفي البيانات المالية. 


تعد البرمجة الديناميكية Dynamic Programming (DP)‏ إحدى التقنيات الأساسية المستخدمة 
اليوم للتراصف التسلسلي بشكل أسرع. DP‏ هي طريقة تحسين رياضية وطريقة برمجة كمبيوتر. يشير 
فى كله السياقيق إلى قسيط کا ine‏ عن طريق تقسيمها إلى io p (JS ta‏ أبسظ بش اة 
Y aa‏ بنك Eia aas ass‏ القرار بهذه الطريقةء غالبا ما تتفكك القرارات التي تمتد على 
عدة نقاط زمنية بشكل متكرر. i elus‏ علوم الكمبيوتر إذاكان من الممكن حل المشكلة على النحو 
الأمثل عن طريق تقسيمها إلى مشاكل فرعية ثم إيجاد الحلول المثلى للمشكلات الفرعية بشكل متكررء 
فيقال إن لديها بنية أساسية مثالية. 


يمكن أن يكون للتراصف التسلسلي التطبيقات الرئيسية التالية: بالنظر إلى تسلسل جديدء توقع وظيفتها 
بناءً على التشابه مع تسلسل RT‏ والعثور على مناطق جزيئية مهمة. وتحديد القيود التطوريةفي العملء 
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والعثور على الطفراتني مجموعة أو عائلة من الجينات» ويعطينا بيولوجيا الشبكة معلومات وظيفية عن 
الجينات / البروتينات» تحليل روابط الطفرات الجينات غير المعروفة بالأمراضء إلخ. 


إذا قارنا تسلسلين» فإنه يعرف باسم التراصف التسلسلي الزوجي .pairwise sequence alignment‏ 
إذا قارنا أكثر من تسلسلين» فإنه يعرف باسم التراصف التسلسلي المتعدد multiple sequence‏ 
alignment‏ بشكل عام» هناك نوعان من التراصف التسلسلي: التراصف العام والمحلي global and‏ 
local alignments‏ يعد التراصف العامء التي تحاول محاذاة كل بقايافي كل تسلسل» مفيدة للغاية 
عندما تكون التسلسلاتفي مجموعة الاستعلام متشابهة ومتساوية الحجم تقريبًا. (هذا لا يعني أن 
التراصف العام لا يمكن أن تبدأ و / أو تنتهي في فجوات.) تقنية التراصف العام بشكل عام هي خوارزمية 
Needleman- Wunsch‏ . والتي تعتمد على البرمجة الديناميكية. يعد التراصف المحلي أكثر فائدة 
للتسلسلات غير المتشابهة التي يشتبهني احتوائها على مناطق متشابهة أو أشكال تسلسلية مماثلة ضمن 
سياق التسلسل الأكبر. تعد خوارزمية Smith- Waterman‏ طريقة تراصف محلية عامة تستند إلى 
نفس مخطط البرمجة الديناميكي ولكن مع خيارات إضافية للبدء والانتهاءني أي مكان. 


يوجد أدناه كود لمقارنة تسلسلين باستخدام الخوارزميات العالمية والمحلية مع مكتبة PYDNA‏ 


Sequemcemee- للم‎ 

Sequenccm < e 

print("Needleman-Wunsch Global Algorithm") 
PyDNA..needleman wunsch global(sequence 1, sequence 2) 
print("Smith-Waterman Local Algorithm") 

PyDNA.smith waterman local(sequence 1, sequence 2) 


النتائج: 


Needleman-Wunsch Global Algorithm 
Score: 15 

ACGGGT 

AC G 

AC — G-Smith-Waterman Local Algorithm 
score: 30 

ACG 


20. نظرة عامة على مكتبة Biopython‏ 

مكتبة Python‏ الأكثر شيوعًا المستخدمةني علم الأحياء الحاسوبي والمعلوماتية الحيوية هي 
-Biopython‏ مشروع 02 عبارة عن مجموعة مفتوحة المصدر من أدوات Python‏ غير 
التجارية للبيولوجيا الحاسوبية والمعلوماتية الحيويةء التي أنشأتها جمعية دولية للمطورين. يحتوي على 
فئات لتمثيل التسلسلات البيولوجية والتعليقات TET‏ المتسلسلة؛ وهو قادر على القراءة والكتابة 
إلى مجموعة متنوعة من تنسيقات الملفات. كما يسمح بالوسائل البرمجية للوصول إلى قواعد البيانات 


1 تطبيق خوارزميات التعلم الآلي لتصنيف بيانات الجينوم 


عبر الإنترنت للمعلومات البيولوجيةء مثل تلك الموجودةفي NCBI‏ تعمل الوحدات المنفصلة على 
توسيع قدرات Biopython‏ للتراصف العام «sequence alignment‏ وبني البروتين protein‏ 
«le; «structure‏ الوراثة السكانية «population genetics‏ وعلم الوراثة «phylogenetics‏ 
وتسلسلات الاشكال sequence motifs‏ والتعلم Biopython . Y‏ هو واحد من عدد من مشاريع 
Bio*‏ المصممة لتقليل تكرار الكود code duplication‏ علم الأحياء الحسابي. 

للمقارنة» دعنا نستخدم هذه المكتبة للتراصف التسلسلي الموضحة أعلاه. كما ترون من البرنامج eol‏ 
تم استيراد مكتبة -Bio‏ 


from Bio import pairwise2 
from Bio.pairwise2 import format alignmentsequence 1 - "ACGGGT" 


Sequenccgs a AG (E 
print("Needleman-Wunsch Global Algorithm") 
alignments - pairwise2.align.globalxx(sequence 1, sequence 2) 
for item in alignments: 
print(format alignment (*item)) 
print("Smith-Waterman Local Algorithm") 
alignments - pairwise2.align.localxx(sequence 1, sequence 2) 
for item in alignments: 
print(format alignment (*item)) 


Needleman-Wunsch Global Algorithm 

ACGGGT 

I | 

AC- -G= 
Score=3 

ACGGGT 

E | 

AC-G-- 
Score-3 

ACGGGT 

|I 

ACG--- 

Score Smith Waterman Local Algorithm 

| ACGGG 
NI 

L m6 
Score-3 

| ACGG 
ll d 

| AC-G 
Score-3 

| ACG 
RI 
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1 ACG 
Score-3 


كلا المكتبتين تنتج نفس النتائج. بالنسبة لحالتناء فإن أفضل التراصف العالمي والمحلي هي - AC‏ 
.ACG 5; -G‏ 


21. مكتبة 29101148 المخصصة 

أثناء البحثفي تطبيقات خوارزميات التعلم الآلي لبيانات الجينوم. وجدت العديد من إجراءات البرمجة 
القياسية والعامة ومعالجة البيانات المتسلسلة غير متوفرة. لا توفر مكتبة Biopython‏ نماذج ANN‏ 
Boosting Gradient;‏ الحديثة المطلوبة مثل الشبكات العصبية التلافيفية (CNN)‏ والشبكات 
العصبية المتكررة (RNN)‏ واكس جي بوست .CXGBoost)‏ وما إلى ذلك. ولهذا السبب» قررت 
إنشاء مكتبة Python‏ بسيطة حتى أتمكن من إعادة استخدامهني عملي اليومي للمعلومات الحيويةفي 
التعلم الآلي. بعد شهرين من العملء أصبحت هذه المكتبة بسيطة وجيدة وكبيرة. قد تتوفر حزمة الإعداد 
الخاصة بهفي المستقبل. فيما يلي أساسيات التصميم الرئيسية. 


1. سهل الاستخدام عن طريق نسخ ولصق ملفات pydna.py‏ و dipydna.py‏ أي مشروع 
.Python‏ 

أساليب تعلم الآلة العامة والإجراءات المنطقية لتدفق عمل المشروع بأكمله. 

معالجة الأخطاء وملف التكوين وتنفيذ رسائل السجل. 

صيانة بسيطة وترقيات مستقبلية. 

وحدة اختبارات تنفيذ المشروع. 


u ROO M 


فيما يلي مثال على كود لملف الواجهة العامة لمكتبة PYDNA‏ 


from zope.interface import Interface 

class IPyDNA(Interface): 

def dna sequence np array(dna sequence string): 

"nmn 

convert a dna sequence string to numpy one-dimensional array 
dna sequence string: dna sequence string 

return: numpy one-dimensional array 


nw 


pass 


22. تصنيف تسلسل الحمض النووي باستخدام خوارزميات التعلم الآلي 
هناك طلب كبير لتطبيق التعلم الآلي على تحليلات مجموعة بيانات الجينوم اليوم. لا تزال العديد من 
الأسئلة حول هذا الموضوع غير واضحة على الإطلاق. دعني أذكر بعضها: 


1( تطبيق خوارزميات التعلم الآلي لتصنيف بيانات الجينوم 


e‏ ماهو مشفر تسلسل الحمض النووي DNA sequence encoder‏ الذي يجب استخدامه 
et.‏ على نموذج التعلم الآلي المحدد؟ 

e‏ ما هي نماذج التعلم الآلي التي يجب استخدامها لمجموعات بيانات الجينوم العام وكيفية 
تفسيرها؟ 

ه RAS‏ تحسين المعلمات الفائقة hyperparameters‏ لنموذج التعلم الآلي؟ 

O‏ كيفية تطبيق معالجة اللغة الطبيعية NLP‏ على تسلسل الحمض الثووي كمجموعة بيانات 
نصية غير مهيكلة *unstructured text dataset‏ 

high كيفية التعامل مع مجموعات بيانات التعبير الجيني عالية الأبعاد وغير المسماة‎ e 
* dimensional and unlabeled gene expression datasets 

genomic ماهي الطريقة التي يجب استخدامها للتعامل مع مجموعات البيانات الجينومية‎ o 
*imbalanced classes ذات الفئات غير المتوازنة‎ 65 

o‏ ماالمقاييس metrics‏ التي يجب استخدامها للتحقق من صحة نموذج التعلم الآلي باستخدام 
مجموعات بيانات الجينوم؟ 

e‏ كيف يتم الكشف عن نموذج التعلم الالي واستهلاكه باستخدام استدعاء واجهة برمجة 
تطبيقات API‏ خدمات الويب؟ 

ه٠‏ كيفية تصميم وبناء جانب العميل و / أو تطبيق سطح المكتب لاستخدام نماذج التعلم الآلي 
هذهفي البحث الحقيقي و / أو بيئات الأعمال الإنتاجية؟ 


يعد اختيار نموذج التعلم الآلي وتحسين المعلمات الفائقة جزءًا من تدفق مشروع التعلم الآلي من 
الخطوات الموضحة أدناه: 


.. Project description and specifications وصف المشروع والمواصفات‎ e 

.Data loading تحميل البيانات‎ — e 

.Data preprocessing معالجة البيانات‎ e 

.Data exploration and visualization استكشاف البيانات والتصور‎ o 

.Features engineering and reduction هندسة الميزات واختزالها‎ o 

.Features and labels encoding ترميز الميزات والتسميات‎ e 

-Features and labels data splitting تقسيم بيانات الميزات والتسميات‎ e 

.Features and labels scaling تحجيم الميزات والتسميات‎ e 

Model selection and hyperparameters اختيار النموذج وتحسين المعلمات الفائقة‎ ه٠‎ 
optimization 


ه التحقق من الصحة المتقاطع للنموذج -Model cross validation‏ 
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-Model prediction التنبؤ بالنموذج‎ © 

-Model performance metrics analysis تحليل مقاييس أداء النموذج‎ e 

e‏ نشرإنتاج النموذج باستخدام تكامل تطبيقات تكنولوجيا المعلومات لواجهة برمجة تطبيقات 
الويب Model production deployment using Web APIs IT application.‏ 
integration‏ 

Model جدول إعادة التدريب النموذجي وإعادة نشر ذكاء الأعمال واتخاذ القرارات‎ e 
retraining schedule and redeployment business intelligence and 


decisions making 


يعد تحديد هذا النموذج لمجموعة بيانات جينوم معينة قرارًا مهما لعلماء المعلومات الحيوية وعلماء 
الأحياء والأطباء.في العديد من حالات الاستخدام يتم تحديد هذا التحديدء على سبيل المثال؛ Fly‏ على 
اتساق طول تسلسل الحمض النووي عبر مجموعة البيانات. يمكن استخدام خوارزميات التعلم الآلي 
التقليدية (الانحدار الخطي واللوجستي Linear and Logistics Regressions‏ وأشجار القرار 
«Decision Trees‏ وآلة المتجهات الداعمة Support Vector Machines‏ والغابات العشوائية 
Random Forest‏ وخوارزميات التعزيز .Boosting Algorithms‏ وشبكة بايزي Bayesian‏ 
Network‏ وما إلى ذلك) مع أي طول لتسلسل الحمض النووي. تتطلب خوارزميات ANN‏ الحديثة 
مثل RNN; CNN‏ طول تسلسل DNA‏ ثابتفي عمود مجموعة البيانات بأكمله. توفر مكتبة 
PYDNA‏ دالة بسيطة لتحديد ما إذا كانت السلسلة النصية لتسلسل الحمض النووي المحددة تحتوي 
على طول موحد أم لا. 


dna is same length > PyDNA.dna sequence is equal length (X) 
Tf dna is Same lengi == False: 
print ("DNA sequence length validation") 


دعونا نلقي نظرة على حالة الاستخدام الأولى. لنفترض Ul‏ بحاجة إلى بناء نموذج تصنيف يمكنه التنبؤ 
بعائلة جينية Lo gene family‏ على مجموعة بيانات تسلسل الحمض النووي البشري. يتم تصنيف 
الجينات إلى عائلات بناءً على النوكليوتيدات المشتركة أو تسلسل البروتين. عائلة الجينات هي مجموعة 
من عدة جينات متشابهة» تتكون من ازدواج جين أصلي واحد» وبشكل عام مع وظائف كيميائية حيوية 
مماثلة. ستستخدم هذه الحالة ملف "human data.txt‏ يمكن تنزيله من موقع GitHub‏ على 
الويب. 

ستوفر UJ‏ طريقة المعلومات الخاصة ب Gos Pandas DataFrame‏ كاماد لمجموعة البيانات. يحتوي 
على عمودين "تسلسل sequence‏ " و Class žo"‏ مع 0 صفاً. 


«class 'pandas.core.frame.DataFrame'- 
RangeIndex: 4380 entries, 0 to 4379 


1( تطبيق خوارزميات التعلم الآلي لتصنيف بيانات الجينوم 


Data columns (total 2 columns): 
# Column Non-Null Count Dtype 

0 sequence 4380 non-null object 
1 class 4380 non-null int64 
dtypes: int64(1), object(1) 
memory usage: 68.6+ KB 

None 


Sequence class 

0 ATGCCCCAACTAAATACTACCGTATGGCCCACCATAATTACCCCCA... 
1 ATGAACGAAAATCTGTTCGCTTCATTCATTGCCCCCACAATCCTAG... 
2 ATGTGTGGCATTTGGGCGCTGTTTGGCAGTGATGATTGCCTTTCTG... 
3 ATGTGTGGCATTTGGGCGCTGTTTGGCAGTGATGATTGCCTTTCTG. . . 
[4380 rows x 2 columns] 


كما qui‏ تخدرى سجموعة البيانات eda‏ على «obla tes pue‏ عموة "الملسل" هو اساسا النصية 
لتسلسل الحمض النووي وعمود "الفئة" الذي يحتوي على سبع تسميات عائلة جينية محتملة موضحة 


CO CO B a 


فى الجدول 1 أدناه. 
Gene Family Count Class Label‏ 
G protein coupled receptors 531 0‏ 
Tyrosine kinase 534 1‏ 
Tyrosine phosphatase 349 2‏ 
Synthetase 672 3‏ 
Synthase 711 4‏ 
lon channel 240 5‏ 


الجدول 1. اسم عائلة الجينات وتعدادها. 


يوضح الشكل 1 المخطط الشريطي لتسميات الفئة class labels‏ لدينا حالة فتات غير متوازنة 
imbalanced classes‏ مع مجموعة البيانات هذه. بشكل عام قبل تطبيق خوارزميات التعلم I‏ 
يجب أن تكون هذه الفئات عبارة عن diab)‏ العينات oversampling‏ أو نقصفي العينات 
Ce» .undersampling‏ نكتشف ما إذا كنا بحاجة إلى تطبيق أي من هذه التقنيات لنموذج التصنيف 
[M‏ 
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Human Gene Family Classes 


13243 
m 
52 
600 
531 534 
400 ee 
240 

0 0 

0 

0 1 2 3 4 5 6 

Gene Family Class. 


الشكل 1. المخطط الشريطى لتسميات الطبقة البشرية. 
فيما يلي أمثلة على تصنيفات الفئة y‏ 


Count 


إليك حقيبة الكلمات النهائية للميزات X‏ وأمثلة أعمدة الفئة. 


X class 
(O, 52603) JL 
(o. 2 7S9) T 
(O; Toeil T 
O, 79202 1 


دعونا نتحقق من الطول الموحد uniform length‏ لتسلسل الحمض النووي. 


X — PyDNA.select df column(df dna, "sequence") 

dna is same length = PyDNA.dna sequence is equal length (X) 
print(dna is same length) 

False 


والنتيجة هي False"‏ ". وبالتالي فإن طول تسلسل الحمض النووي ليس om ya‏ عبر العمود.ني هذه 
الحالة. سيتم استخدام خوارزميات التعلم الآلي التقليدية. 

استنادًا إلى مكتبة PYDNA‏ يتم عرض الكود الكامل لخوارزميات التعلم الآلي أدناه. لقد علقت على 
كل سطر من التعليمات البرمجية لأي شخص لفهم كيفية عمل هذا البرنامج. 


1 تطبيق خوارزميات التعلم الآلي لتصنيف بيانات الجينوم 


import sys 

import time 

import os 

os.system("cls")import numpy as np 

import pandas as pd 

imoore Mae DESE 215 انون‎ AS le 

import seaborn as sns 

import xgboost as xgbfrom sklearn.feature extraction.text import 
CountVectorizer 


from sklearn.model selection import train test split 

i EOM Skea ERN Mel ES ES MMOOEE CLASS EEA EI OM EOE, 
confusion matrix, accuracy score 

EEOM Sklearn metrics mort TOC auc Sore, Drecigion seonBne 
recati core fl Segre 

from sklearn.naive bayes import MultinomialNB 

from sklearn.neural network import MLPClassifier 

from sklearn.ensemble import RandomForestClassifier 

from sklearn.preprocessing import StandardScaler, MinMaxScaler, 
RobustScaler, MaxAbsScaler 

from pydna import PyDNAimport warnings 
warnings.filterwarnings('ignore')def 

get program running(start time): 


RA Erme omes ProOCSss Cime) 

cier ime > eae time — Start Cime 

result = tine. sti freiem e ("Ves MS o, EME o CNES (CLEE Eme) 
print("program runtime: ()".format(result))def main(): 


f text file path and name. this path to be defined in the 
project config file 
human data txt = r"folder pathMhuman data.txt" 


* data load 

df dna = PyDNA.pandas read data("TXT", human data txt, None)f 
select y label 

y= eNA select y lebel Ona, CaS) 


# generate a k-mer of words data frame column 
df dna > PyDNA.create dataframe column words (df dna, 
"sequence", "words") 


show y label imbalanced classes plot 
PyDNA.imbalanced classes plot(y, True, "class", "Gene Family 
Class", "Count", "Human Gene Family Classes") 


generate X feature bag of works 
X — PyDNA.bag of word series(df dna["words"], 4) 


data split in train, valid and test (8037/107/107) 

S trean, y Erein, X valis, y valie, X "teu, y TeSt = 
EYDNA renin ve licencion test Soliti wp eere. TESE Satu e). 277. 
valis 5129-05 


O3 
(op 
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# create machine learning model and optimize it's 
hyperparameters 

ml model, ml model hyperparameter > 
PyDNA.create ml model("MultinomialNB", X train, y train) 

print(ml model hyperparameter) 


# get y predicted valid 
y predicted valid = PyDNA.ml model predict(ml model, X valid) 


* calculate valid classification metrics 
accuracy score value, precision value, recall value, 
fl score value, confusion matrix value, classification report value 
-OPyDNAGCalculauexclassaficatitongemetries ys ل‎ 
y predicted valid) 
print("valid accuracy 
score: WMn()An".format (accuracy score value)) 
print ("valid precision: Mn()Nn".format(precision value)) 
print ("valid recall: Nn()in".format(recall value)) 
print("valid f1 score:Nn()Nn".format(fl score value)) 
print("valid confusion 
matrix:Nn()An".format(confusion matrix value)) 
print("valid classification 


report: Nn()An".format(classification report value)) 


# get y predicted test 
y predicted test = PyDNA.ml model predict(ml model, X test) 


f Calcul ate EES Cla SSE EAE HON ME EELGS 

accuracy score value, precision value, recall value, 
fl score value, confusion matrix value, classification report value 
— PyDNA.calculate classification metrics(y test, y predicted test) 


print("test accuracy 
score: WMn()Mn".format(accuracy score value)) 

print("test precision: Nn()NAn".format(precision value)) 

print("test recall:WNn()Nn".format(recall value)) 

print("test fl score: Nn()]Mn".format(fl score value)) 

print("test confusion 
matrix:Nn()NAn".format(confusion matrix value)) 

print("test classification 
report:\n{}\n". format (classification report value))if _ name  -- 
7 meim “s 

start time = time. process time() 

main )( 


get program running(start time) 
تظهر النتائج ستة‎ .Multinomial Naive Bayes فيما يلي نتائج البرنامج باستخدام نموذج مصنف‎ 
accuracy مقاييس محسوبة رئيسية مستخدمةفي التحقق من صحة نماذج التصنيف: درجة الدقة‎ 
confusion JYI مصفوفة‎ (f1 score) £1 درجة‎ recall الاسترجاع‎ «precision الدقة‎ «score 
تعد نسبة 797.7 من درجات دقة الاختبار نتيجة‎ . classification report وتقرير التصنيف‎ matrix 


1 تطبيق خوارزميات التعلم الآلي لتصنيف بيانات الجينوم 


ممتازة لمجموعة البيانات الجينومية الخاصة بنا. بالنظر إلى قيم نقاط دقة التحقق والاختبارء يمكننا 
التأكد من أن مشكلة الضبط الزائد [overfitting‏ الضبط الناقص underfitting‏ للنموذج ليست هي 
حالتنا. لهذه الأسباب ليست هناك حاجة لتطبيق أي طرق فئات غير متوازنة لمجموعة البيانات الخاصة 


I 
validation accuracy score: 
98.858validation precision: 
O98 9 2wadstdacioenesecals 
98.858validation f1 score: 
98.86validation confusion matrix: 
LE S3 0 0 0 0 0 0 
0 52 0 0 0 il 0 
0 0 25 0 0 0 0 
0 0 0 66 i 0 0 
il 0 0 9 69 0 il 
0 0 0 0 0 24 0 
0 0 0 0 1 0 134]]validation classification report: 
precision recall fi1-score support0Ü (ORO 
1L 5 100) (01, 99) 53 
1 1.00 0.98 O SS) 55 
2 4L. 90) 1.00 1L 5010) 35 
3 1L e (0), ©, 99 0). 9e) 67 
4 0.97 01297 01297 ya 
5 0.96 1.00 01:98 24 
6 Oa 99] 0a 99 O- 99) JL 35 accuracy 
0,5 939) 438 
macro avg (9). 91 ().; 99 (0). 9 438 
weighted avg 07 026 026 438test accuracy 
Score: 
97.717test precision: 
97.8test recall: 
O7 s 7756515 El Scores 
98/725661 CONTOS MACE 
11 30 0 0 0 3 0 0 
0 59 0 0 0 0 1 
0 0 95 0 0 0 0 
0 0 0 67 0 0 0 
0 1 0 0 70 0 0 
0 0 0 0 Q 23 1 
0 0 0 0 1 3 10] Jessi CLAS SEE 62 ا‎ erp otis. 
precision recall f1-score support0Ü 1 00 
0.94 0.97 55 
i (0), 98 (0). X8 0.98 54 
2 1-00 00 IOO 355 
3 JL. (0:0 JL 5 (0/6) dL 510), 67 
4 (PISIS 0), 99 012977 Fi 
5 0.88 0.96 0/292 24 
6 (0 98 0). 7) 0 5/98 134 accuracy 
0.96 438 
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macro avg (ORO 0.98 (QEON 438 
weighted avg 0.98 0/98 0.98 438 


يوضح الجدول 2 نتائج تطبيق pl pl‏ مختلفة من نماذج تصنيف التعلم الآلي. تم الحصول على أفضل 
النتائج باستخدام نماذج المصنف Multi-layer Perceptron; Multinomial Naive Bayes‏ 
مع أكثر من 7 من درجات دقة الاختبار. قدمت نماذج الانحدار اللوجستي Logistic Regression‏ 
والغابات العشوائية JU Random Forest‏ | 92/ من درجات دقة الاختبار. عادة ما يوفر نموذج 
الغابات العشوائية نتائج جيدة عملي للعديد من مجموعات البيانات الممكنة. أوصي بالبدء بنموذج 
الغابات العشوائية لأي مشاريع تصنيف وانحدار تعلم آلي. لم تنجح نماذج تعزيز التدرج Gradient‏ 
(boosting models‏ مجموعة البيانات لدينا. ربماء بشكل cale‏ هذه النماذج ليست جيدة بما يكفي 
لتصنيف مجموعات بيانات الجينوم. سأقدم المزيد من المعلومات والنتائج الجديدة حول هذا 
الموضوعفي أوراق المدونة القادمة. 


Classification Model Validation Accuracy Score, 96 Test Accuracy Score, 95 


Logistic Regression : 94.0 
LogisticRegression() 


Decision Tree y 81.7 
DecisionTreeClassifier() 


Random Forest ; 92.4 
RandomForestClassifier() 


C-Support Vector Classification 89.4 90.8 
SVC() 

Multinomial Naive Bayes 97.7 
MultinomialNB() 

Gradient Boosting 83.7 
GradientBoostingClassifier() 


AdaBoost j 43.8 
AdaBoostCiassifier() 

81.7 
Multi-layer Perceptron 97.4 
MLPCIassifier() 
Extreme Gradient Boosting 76.0 78.5 
XGBClassifier(} 


الجدول 2. نتائج نماذج مصنفات التعلم الآلي مع مجموعة بيانات عائلة الجينات. 


1 تطبيق خوارزميات التعلم الآلي لتصنيف بيانات الجينوم 


23. تطبيق الشبكات العصبية التلافيفية (CNN)‏ لتصنيف تسلسل الحمض 
النووي 

في حالة الاستخدام الثانية» سنتوقع ما إذاكان تسلسل الحمض النووي يمكن أن يرتبط بالبروتين أم لا. 
البروتينات المرتبطة بالحمض النووي DNA-binding proteins‏ هي بروتينات لها مجالات ربط 
الحمض النووي وبالتالي لها تقارب affinity‏ محدد أو عام للحمض النووي أحادي أو مزدوج الشريطة 
single- or double-stranded DNA‏ مجال ربط الحمض النووي هو مجال بروتين مطوي بشكل 
مستقل يحتوي على شكل هيكلي واحد على الأقل يتعرف على الحمض النووي المزدوج أو المفرد 
احادي الخيط double- or single-stranded DNA‏ هذا سؤال جينومي وظيفي قياسي للكشف 
عن مواقع ربط عامل النسخفي تسلسل الحمض النووي. 

CERA‏ العصبية التلافيفية Convolutional Neural Networks (CNN)‏ هي فئة من 
الشبكات العصبية العميقة «Deep Neural Networks (DLN)‏ وهي الأكثر استخدامًا لتحليل 
الصور المرئية .visual imagery‏ ار ف أيضًا باسم shift invariant or space Invariant‏ 
Artificial Neural Networks (SIANN)‏ بناءً على بنية الأوزان المشتركة shared-weights‏ 
architecture‏ وخصائص الترجمة الثابتة m translation invariance characteristics‏ 
dou de‏ التعرف على الصور والفيديو mage and video recognition‏ وأنظمة التوصية 
recommender systems‏ وتصنيف الصور «mage classification‏ وتحليل الصور الطبية 
«medical image analysis‏ ومعالجة اللغة الطبيعية «natural language processing‏ وواجهات 
الدماغ ‏ الحاسو ب brain-computer interfaces‏ والسلاسل الزمنية المالية financial time‏ 


series‏ إلخ. 


من المعروف أن CNN‏ تستخدم بشكل عام لتحليل تلافيفات convolutions‏ الصورة ثنائية الأبعاد 
(2D)‏ 2556 الأبعاد (3D)‏ من خلال مجموعة البيانات الجينومية الخاصة بناء سيتم تطبيق نموذج 
بسيط CNN‏ (11ومكتبة Keras‏ يمكن تنزيل مثال على تسلسل الحمض النووي وبيانات نص 

التسمية label text data‏ من روابط URL‏ التالية: 
dna sequence - "https://raw.githubusercontent.com/abidlabs/deep-learning-genomics‏ 
-primer/master/sequences.txt"‏ 


dna label = "https://raw.githubusercontent.com/abidlabs/deep-learning-genomics- 
primer/master/labels.txt" 


في المشاريع التفاعلية للتعلم اللي باستخدام Jupyter Notebooks‏ على سبيل المثال» سيستغرق 
تحميل هذه البياناتفي إطار بيانات DataFrame‏ ل pandas‏ بعض وقت تشغيل البرنامج. لتجنب 
ذلك» تم تطوير دالة dale‏ بسيطةفي مكتبة PYDNA‏ تقوم هذه الدالة بتحميل هذين الرابطين بالتوازي 


التعلم العميق واستخداماته في المعلوماتية الحيوية 


وإنشاء ملف CSV‏ نهائي بسلسلة تسلسل الحمض النووي وأعمدة رقم التسمية. المعلمة الثالثة 
dna sequence protein"‏ هي اسم معرف لملف CSV.‏ تظهر استدعاء الدالة أدناه. 


PyDNA.GenerateCSVFileParallel(dna sequence, dna label, 
"dna sequence protein'') 


يعد تحميل البياناتفي مشاريع التعلم الآلي مهمة معنية خاصةني منطقة مجال البيانات الضخمة Big‏ 
.Data domain‏ حتى مجموعة البيانات البسيطة التي تحتوي على ملايين الصفوف ستبطئ عملية 
تحميل إطار بيانات pandas‏ سيؤدي تطبيق تقنيات مثل Python‏ غير المتزامن وبرمجة المعالجة 
المتعددة إلى تحسين هذه العملية إلى حد كبير. 


يعرض الجدول 3 عشرة du ou‏ ل "dna | Sequence‏ النهائي. تحتوي أعمدة 
dna . label"‏ ' على قيمتين ثنائيتين :0 - تسلسل الحمض النووي لا يمكن أن يرتبط بالبروتين و1 - 
يمكن أن ciao dag‏ هذا هو تصنيف GU‏ بسيط مهمة للتعلم اأ 


dna label‏ كم 
CGAGGGCTATGGTTTGGAAGTTAGAACGCCTGGGGCTTCTCGCGGACACC‏ 
pe M a 3‏ 


IGAGTTTATATGGCGCGAGCCTAGTGGTTTTTGTACTTGTTITGTCGCGTCG 
(GATCAGTAGGGAAACAAACAGAGGGCCCAGCCACATCTAGCAGGTAGCCT 
IGTCCACGACCGAACTCCCACCTTGACCGCAGAGGTACCACCAGAGCCCTG 
GGCGACCGAACTCCAACTAGAACCTGCATAACTGGCCTGGGAGATATGGT 
GACATTGTCAGAACTTAGTGTGCGCCGCACTGAGCGACCGAACTCCGAC 
SCOCCA CTGACGAATCCTCGACCGAACTCCAGTGAAGCCAACCGG 
GGCAGGTGGTCGTACAATGTTTTCGAAGAGATAGGGGGCCAGAGGCCTOC 
ACTGCCTATAGCGAAGAGCGCGAGAGGTATATCGAAGAATACCGAGCAA 


CGTATCTTCGTGTGCTCTCCTTTAGAACTGCATCTCTAGAGTCAGAGAGG 


oll 


a|2jo|o 


eo5j 


eo 


.dna sequence protein.csv' الجدول 3. صفوف بيانات‎ 


للاطلاع على وصف مجموعة البيانات» e‏ تطبيق طريقة ة معلومات اطار بيانات .Pandas‏ تحتوي 
مجموعة البيانات هذه على 2000 صف مع عمودين سلاسل "dna sequence‏ وأرقام ثنائية 
"dna label‏ من 0 و 1. 


«class 'pandas.core.frame.DataFrame'» 
Into4rndesx: 2000 6ض‎ 2252257 0 EO 1999 
Data columns (total 2 columns): 

# Column Non-Null Count Dtype 

0 dna sequence 2000 non-null object 

1 dna label 2000 non-null int64 
dtypes: int64(1), object(1) 

memory usage: 46.94 KB 

None 


1 تطبيق خوارزميات التعلم الآلي لتصنيف بيانات الجينوم 


قبل تطبيق أي نماذج ANN‏ يجب التحقق من طول تسلسل الحمض النووي للتأكد من انتظامه 
.uniformity‏ نتيجة الكود ادناه هي "True!‏ لذلك يمكن تطبيق نماذج CNN‏ و RNN‏ على 
مجموعة البيانات الجينومية هذه. 

X = PyDNA.select df column(df genomics, "dna sequence") 


dna is same length > PyDNA.dna sequence is equal length (X) 
print(dna is same length) 


تم ترميز تسلسل الحمض النووي DNA sequences‏ وتسميات الفئة class labels‏ باستخدام ترميز 
واحد ساخن .one-hot encoding‏ كما تم توضيحه من قبل» يعد هذا أحد استخدامات الترميز 
القياسية الرئيسيةفي طرازي RNN, CNN‏ يظهر أدناه مثال لترميز واحد ساخن لتسلسل الحمض 


X النووي (ميزات‎ 
EEEO Ta Qu Qu 
Às OQ. Q. 
OQ. Oa La Q 
1 Qa Qu. € 
Oa Lo Os Q 
Oa dis 9. Oi rO. Qs ta Qul 
La Os (s Q 
Oa Os. La (9 
Oa Oo Oo T 
Oa La Oe O 
O0. Oa ta OIIE Co La Oa] 
d Qs Q. € 
0. Oo Q. A 
Oa ds Q. Q 
0 s Os O 
Oa (fs Qo Lali 


11> 0] 
L 95] 
L O] 
L Q5] 
Co 14] 
Q4 a l 


يوجد أدناه كود البرنامج الكامل لتنفيذ نموذج CNN‏ لمجموعة البيانات الجينومية هذه باستخدام 
مكتبة PYDNA‏ المخصصة. 
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import sys 

import time 

import os 

os.system("cls") 

os.environ['TF CPP MIN LOG LEVEL'] - '2'import tensorflow as tf 
tf.random.set seed(10)import tensorflow.keras.backend as K 
from tensorflow.keras.models import load model 

import numpy as np 

import pandas as pd 

Lare Mat OLO DISPOSES as Tub 

import seaborn as sns 

import requests 

from sklearn.preprocessing import LabelEncoder, OneHotEncoder 
from sklearn.model selection import train test split 

Eom SEleatnN Mell ENES UMOOEE Clas lea EON EEO E, 
confusion matrix, accuracy score 
dfenomgsliltedmnemeyssdiesaeimpornesero cmauc gs conc م‎ SESE, 
recall seore, fl Score 

from pydna import PyDNAimport warnings 
warnings.filterwarnings ("ignore") def 

get program running(start time): 


nd time = time.process time () 
dirr eime = ene tine = Start Eime 
result = tine, sterte HE MI ou, IME Nene (CEE Me) ) 
print("program runtime: í()".format (result)) 
def main(): 


# csv file path and name 

csv path file = r"csv file path/name.csv"4 data frame load 

df genomics - PyDNA.pandas read data("CSV", csv path file, 
None)4 remove rows and columns with missing values. 

df genomics.dropna (how-"all", inplace-True)4 select X features 

X > PyDNA.select df column(df genomics, "dna sequence")f$ check 
if dna sequences have the same legnth - part of dna sequence 
preprocessing! 

dna is same length - PyDNA.dna sequence is equal length(X) 

if dna is same length -- False: 

exit ()# X features one-hot encoder 

X PyDNA.cnn X onehot encoder(X)f select y label 

y = PyDNA.select df column(df genomics, "dna label")$ show y 
label imbalanced classes plot 

PyDNA.imbalanced classes plot(y, True, "dna label", "DNA bind 
to protein class", "Count", "DNA Sequence Protein Classes")4 y 
label one-hot encoder 

y = PyDNA.cnn y onehot encoder (y)# data split in train, valid 
and test )805/105/105( 

X credin, y erain, 3€ ال لحي‎ y valicy X test, Y TESE = 
IBN treun a LIA EN ONS test solir yp Cest Sze 2y 
valid size-0.5)4 create cnn model and get loss/metrics values 
history 

epochs - 50 


1 تطبيق خوارزميات التعلم الآلي لتصنيف بيانات الجينوم 


dare split = 1057 

cnn model, cnn history = PyDNA.create cnn model(y train, 
X train, epochs, data split)$4 plot cnn model loss 

Tome Size = © 

PyDNA.cnn model loss plot(cnn history, font size, "CNN Model 
LOSSY, ESOC, LOSS, Ta للست‎ adsidatd onm) E pO ENN MOEN 
accuracy 

PyDNA.cnn model accuracy plot(cnn history, font size, "CNN 
Model 266029 ت‎ i; "Uo. Wege. NEAT, 
"Validation"])print("Model Validation") 

* get y predicted valid 

y predicted = cnn model.predict(X valid) # get max indices of 
the maximum values along an axis 


y val max > PyDNA.get max nparray(y valid) 

y predicted max = PyDNA.get max nparray(y predicted) # calculate 
valid classification metrics 

accuracy score value, precision value, recall value, 
fl score value, confusion matrix value, classification report value 
= PyDNA.calculate classification metrics(y val max, 
y predicted max) 


print("valid accuracy 
score: \n{}\n".format (accuracy score value)) 
print("valid precision: Nn()Nin".format(precision value)) 


print("valid recall: Nn(]Nn".format(recall value)) 
print("valid fl score:Nn()Nn".format(fl score value)) 
print("valid confusion 
matrix:Nn()Mn".format(confusion matrix value)) 
print("valid classification 
report: NMn()NAn".format(classification report value))print ("Model 
Teen) 
* get y predicted test 
y jexeerehuenexel = ema moel عات لك تدم‎ (5X Test) 


f get max indices of the maximum values along an axis 

y test max > PyDNA.get max nparray(y test) 

y predicted max = PyDNA.get max nparray(y predicted)$* calculate 
Test CLASS E ME SE OM Me ENES 

accuracy score value, precision value, recall value, 
fl score value, confusion matrix value, classification report value 
— PyDNA.calculate classification metrics(y test max, 


y predicted max) 
print("test accuracy 
score:\n{}\n". format (accuracy score value)) 
print("test Precls lon: Nn()Nn".format(precision value)) 
E LE (ESSE اهمف‎ Nt) Wap! onet (Geor. velws)) 
print("test El score: Nn()An".format(fl score value)) 
print("test confusion 
matrix:NMn()Mn".format(confusion matrix value)) 
maine (Heese عدت دع 1مك 2 لنت‎ ton 


Nn()NAn".format(classification report value))‏ :6ن مضعم 


التعلم العميق واستخداماته في المعلوماتية الحيوية 


# save cnn model 5 

cnn model path = r"cnn model path ^" 

cnn model name > "cnn model name" 

PyDNA.cnn model save h5(cnn model, cnn model path, 
cnn model name) 


# load cnn model h5 
cnn model - PyDNA.cnn model load h5(cnn model path, 
cnn model name) 


print(cnn model)if name == ' main  ': 
start time = time.process time() 
main )( 


get program running(start time) 
من أول الأشياء التي يجب القيام بهافي مشاريع تصنيف التعلم الآلي هو التحقق من الفئات غير المتوازنة‎ 
كما فعلنا مع مجموعة بيانات عائلة الجينات السابقة. يوضح الشكل 2 مخطط‎ imbalanced classes 
شريطي لتسميات الطبقة الثنائية للحمض النووي. من الواضح أن كلا تصنيفي الفئةفي حالة توازن جيد.‎ 


DNA Sequence Protein Classes 


1013 
1000 987 
800 
800 
400 
200 
0 
0 1 
DNA bind to protein class 


الشكل 2. رسم بياني شريطي لتسميات الطبقة الثنائية للحمض النووي. 


نتائج البرنامج موضحة أدناه. نسبة 97.0./ من درجة دقة الاختبار جيدة جدا. يمكن تطبيق نموذج 
CNN‏ هذا لتصنيف تسلسل الحمض النووي الذي يمكن أن يرتبط بالبروتين el‏ لا. 


Layer (type) Output Shape Param 4 
lu c IET I 1568 
max poolingid 1 (MaxPoolingl (None, 9, 32) 0 
flatten 1 (Flatten) (None, 288) 0 


dense 1 (Dense) (None, 16) 4624 


1( تطبيق خوارزميات التعلم الآلي لتصنيف بيانات الجينوم 


dense 2 (Dense) (None, 2) 34 
Total params: 6,226 
Trainable params: 6,226 
Non-trainable params: 0 
va 
lidation accuracy score: 
97.5validation precision: 
97.544validation recall: 
5/5 2511561352 sil SCO 
SSA Licet iron e OnHsu s on eisq x 
1S a 
[1 97]]validation classification report: 
precision recall  fil-score support 0 
(0). 939. (PIOS 0.98 1502 
dl 0.96 0). 9 (9). 917] 98 accuracy 
(0.97 200 
macro avg (0). SE 0.98 OST 200 
weighted avg Oa SE a S7 0.98 200test accuracy 
Score: 
97.0test precision: 
97.019test recall: 
977068686 El Segoe: 
97.0test confusion matrix: 
LIES Al 
L 2 NEES CLASSES CAO EEPOEES 
precision recall fi1-score support 0 
0.98 (PISIS 02:97 101 
1 (P396 (9). 9X8 (0). 917] 99 accuracy 
02:97 200 
macro avg (0). 617] omon omo 200 
weighted avg (9) «, 97 Oa o (0). 81g) 200 


إنها ممارسة جيدة عند استخدام NN‏ © في التعلم الآلي لتصور مخططات التحقق من صحة الخطأ 
والدقة لمجموعات التدريب train‏ / التحقق من الصحة validation‏ استنادًا إلى تكرارات الفترات 
.epoch‏ عدد الفترات number of epochs‏ هو نموذج معلمة فائقة hyperparameter‏ يحدد عدد 
المرات التي ستعمل فيها خوارزمية التعلم من خلال مجموعة بيانات التدريب بأكملها. يوضح الشكل 
3 مخطط خطأ التدريب / التحقق من صحة نموذج CNN‏ (منحنى (curve‏ بمجرد أن تتوقف خطأ 
مجموعة التحقق عن التحسن أو تزداد سوءًا خلال دورات التعلم» فقد حان الوقت لإيقاف التدريب 
oÑ‏ النموذج قد تقارب converged‏ بالفعل وقد يكون مجرد ضبط زائد 07186628.في حالتناء 
يجب أن يكون عدد الفترات بين 40 و 50. يجب ألا يكون هذا الرقم أقل من 40 لمنع الضبط الناقص 
النموذج -underfitting‏ لذاء فإن اختيار عدد الفترات مهم جدا لضمان درجة دقة نموذج CNN‏ 


التعلم العميق واستخداماته في المعلوماتية الحيوية 


CNN Modo! Loss 


—- Train 
— lidation 


الشكل 3. مخطط خطأ التدريب / التحقق من صحة لنموذج CNN‏ 
يوضح الشكل 4 مخطط دقة تدريب / التحقق من الصحة لنموذج .CININ‏ كما ترى» بعد 30 فترة 


تكون دقة مجموعة 3c) J|‏ مستقرة. لذلك. من خلال ال جمع بين هاتين اله خططين, 2 nS‏ أن ن A‏ 
أن اختيار عدد الفترات بين 40 و 50 هو حل جيد لمجموعة بيانات الجينوم المحددة هذه. 


CNN Model Accuracy 


Tain‏ سب 
Validation‏ -—— 


10 20 30 
Epe 


الشكل 4. مخطط دقة تدريب | التحقق من الصحة لنموذج CNN‏ 
4. تطبيق شبكات الذاكرة طويلة قصيرة المدى (LSTM)‏ لتصنيف تسلسل 
الحمض النووي 
الشبكة العصبية المتكررة Recurrent Neural Network (RNN)‏ حي فئة من الشبكات العصبية 
الاصطناعية Artificial Neural Networks (ANN)‏ حيث تشكل الاتصالات بين العقد رسمًا 
بيانيًا موجهًا على طول تسلسل زمني temporal sequence‏ هذا يسمح لها بإظهار السلوك الديناميكي 


1 تطبيق خوارزميات التعلم الآلي لتصنيف بيانات الجينوم 


الزمني .temporal dynamic behavior‏ المشتقة من الشبكات العصبية امامية التغذية 
feedforward neural networks‏ يمكن لشبکات RNN‏ استخدام حالتها الداخلية internal‏ 
state‏ (الذاكرة (memory‏ لمعالجة تسلسلات متغيرة الطول من المدخلات. هذا يجعلها قابلة للتطبيق 
على مهام مثل التعرف على خط اليد handwriting recognition‏ غير المقسم أو المتصل أو التعرف 
على الكلام -speech recognition‏ 


الذاكرة طويلة قصيرة المدى Long Short-Term Memory (LSTM)‏ هى بنية RNN‏ 
المستخدمةفي مجال التعلم العميق. على عكس الشبكات العصبية ذات التغذية الأمامية القياسية» فإن 
4 لديها اتصالات تغذية مرتدة .feedback connections‏ لا يمكنها فقط معالجة نقاط 
البيانات الفردية (مثل الصور)ء ولكن أيضًا التسلسل الكامل للبيانات (مثل الكلام أو الفيديو). على 
سبيل المثال» يمكن تطبيق 1 على مهام مثل التعرف على خط اليد handwriting‏ 
recognition‏ غير المقسم والمتصل والتعرف على الكلام speech recognition‏ واكتشاف 
الانحراف anomaly detection‏ حركة مرور الشبكة أو أنظمة كشف التسلل IDSs‏ 


LSTMs‏ قادرة على تعلم التبعيات طويلة المدى long-term dependencies‏ مع حفظ العديد من 
الخطرات السايقةق (ees‏ مما يوقر cos‏ كافية oa‏ يشر gb LSTM.‏ عهسة معالجة متا 
قد يوجد فيها تحلل هرمى محتمل» لكن لا تعرف مسبقا ما هو هذا التحلل decomposition‏ إذا 
ندا التحنضى الفزوى رل laeti ib pb 8,515 col‏ بنج خا cobi‏ طويلة المدى long-‏ 
range correlations‏ على طول التسلسل» Bub‏ لا نطبق خوارزمية LSTM‏ لتصنيف تسلسل 
الحمض النووي. 


لتشغيل خوارزمية LLSTM‏ التغييرات التالية مطلوبةفي البرنامج السابق باستخدام CNN‏ 


f create lstm model and get loss/metrics values history 

epoch - 50 

data split - 0.2 

lstm model, lstm history - PyDNA.create lstm model(y train, 

X train, epoch, data _split)# plot lstm model loss 

romge Size = © 

PyDNA. lstm model loss plot(lstm history, font size, "LSTM Model 
Loss“, LEDGER, Ua. Wap. VATA ONL y; olot diee model 
accuracy 
PyDNA.lstm model accuracy plot(lstm history, font size, "LSTM Model 
Accuracy t; Wisengim, Wiese. emeent LUA) 


بالنسبة إلى ملف «x "dna sequence protein.csv‏ تظهر النتائج أدناه. 


Layer (type) Output Shape Param # 


convid 1 (ConviD) (None, 5397 325 1568 
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lstm 1 (LSTM) (None, 39, 64) 24832 
max poolingld 1 (MaxPoolingl (None, 9, 64) 0 
flatten 1 (Flatten) (None, 576) 0 
masking 1 (Masking) (None, 576) 0 
dense 1 (Dense) (None, 64) 36928 
dropout 1 (Dropout) (None, 64) 0 
dense 2 (Dense) (None, 2) LIO 
Total params: 63,458 
Trainable params: 63,458 
Non-trainable params: 0 
validation accuracy score: 
98.5validation precision: 
98.545validation recall: 
98.5validation f1 score: 
9580755111 كت‎ 1 enc onmfus omneis» 
199 zi 
[0 98]]validation classification report: 
precision recall fil-score support 0 
1.00 02327 0:99 1502 
1 (0. 817] 3L 4.0) (0). 9X8) 98 accuracy 
0.98 200 
macro avg (0). O19) (POI (0) OS 200 
weighted avg (9) 4, 99 0.98 (0). 9) 200test accuracy 
Score: 


99.5test precision: 
99.505test recall: 
99.5test fl score: 
99.5test confusion matrix: 


[[100 3b] 
L O SON 1 8526 classi ication SOE 
precision recall fil-score 
IOO (0). 98) 1.00 101 
1 (OI IOO 0 99] 

0a 9S 200 

macro avg 0 IOO 0) S9 
weighted avg 00 0. 99 O0 


support 0 
99 accuracy 


200 
200 


عند تقييم أداء النموذج على بيانات الاختبار. كانت درجة الدقة التي تم الحصول عليها 99.5/. لقد 
قمت بتشغيل مجموعتين من مجموعات البيانات الجينومية وخوارزميات LSTM‏ توفر أفضل النتائج 
لتصنيف تسلسل الحمض النووي حتى الآن. إذا طبقنا خوارزمية مصنف بيربيرسترون Perceptron‏ 


1 تطبيق خوارزميات التعلم الآلي لتصنيف بيانات الجينوم 


متعدد الطبقات MLPClassifiero‏ فيمكن عرض النتائج النهائية أدناه. درجة دقة الاختبار جيدة جد 
مثل 98.0/. لا يزال أداء خوارزمية LSTM‏ أفضل. 


ACCURACY SCORES‏ 621201 1602 للك 
precision:‏ 0177311031602 . 96 
OO 25 165 call‏ 
96.0validation f1 score:‏ 
MEE E‏ ا SE. SOSYAL‏ 
1© 99[ 
99]]validation classification report:‏ 0[ 


precision recall fi1-score support 0 
1L. 100) 0)... 92 (9G 101 
iji 023 3L 5 (010) O GG 99 accuracy 
096 200 
macro avg 020066 0a o 096 200 
weighted avg 0, SG 006 (ROIG 200test accuracy 


Score: 
98.0test precision: 
98.078test recall: 
98.0test fl score: 
98.0test confusion matrix: 
19S a 
[0 98]]test classification report: 


precision recall f1-score support 0 
1L. © 96 0.98 102 
1 0.96 JL. (0) (PIS 98 accuracy 
0.98 200 
macro avg (0) «. 8) 0.98 (0). Si 200 
weighted avg (PIOS (0G 0.98 200 


يوضح الشكلان 5 و 6 مخططات خطأ ودقة التدريب / التحقق من الصحة نموذج LSTM‏ كما $5« 
يمكن أن يضمن اختيار عدد الفترات بين 30 و 40 Ve flol‏ لنموذج LLSTM‏ 


5711 Model Loss 


الشكل 5. مخطط خطأ التدريب / التحقق من الصحة لنموذج LSTM‏ 


التعلم العميق واستخداماته في المعلوماتية الحيوية 


O1 
e 


LSTM Model Accurscy 


Malitation‏ س 


الشكل 6. مخطط دقة التدريب / التحقق من الصحة لنموذج .LSTM‏ 


تم الحصول على النتائج أدناه باستخدام نموذج مصiف Mulünomial Naive Bayes‏ 
.MultinomialNBO‏ حستًاء كما ترى» لا يعمل هذا المصنف جيدا مع مجموعة البيانات الجينومية 
المحددة هذه. هذا مثال عملى جيد جد لإثبات أن كل مجموعة بيانات جينية فريدة من نوعها وأن 
أفضل الممارسات لأي علماء بيانات هي تطبيق جميع خوارزميات التعلم الآلي التقليدية والحديثة لكل 
منها. يعتقد العديد من علماء البيانات أن التعلم العميق يمكنه فعل كل شي ءي التعلم الآلي لهم اليوم. 
من السهل جد إثبات أنه حتى خوارزميات Extreme Gradient Boosting ; Random Forest‏ 
قد حققت أداءً أفضلني كثير من الحالات مقارنة بخوارزميات التعلم العميق بماني ذلك CNN‏ و 
sls e «WI .LSTM‏ بتطبيقها جميعًا على كل مجموعة بيانات جينية محددة واستخدم المجموعة 
ذات المقاييس الأفضل أداء. أتفهم أن هذا قد يستغرق بعض الوقت ولكنه شرط ضروري للغاية 
validation accuracy score:‏ 

80.5validation precision: 

86.011validation recall: 

SOS Svea dation El SEBE; 

79.772validation confusion matrix: 


] ]652 39] 
[0 99]]validation classification report: 


precision recall fil-score support 0 
1 O0 (0). (Sl (0). 275 101 
1 0o 72 dE (00) 0.84 99 accuracy 
omoi 200 
macro avg 0.86 omeni 00030 200 
weighted avg 0.86 0.81 0.80 200test accuracy 
Score: 


79.5test precision: 
85.547test recall: 

7O Strese El Scones 
720769505612 CONCUSSION MAE 


1( تطبيق خوارزميات التعلم الآلي لتصنيف بيانات الجينوم 


]]61 41[ 
[0 98]]test classification report: 
precision recall f1-score support 0 
00 0.60 05 15 102 
ii (0). ai 1 (010) (0, 1.) 98 accuracy 
0.80 200 
macro avg (0) «959 0.80 (0) 4 778) 200 
weighted avg 0.86 0.80 (Q9 200 
الاستنتاجات‎ -25 

string لمعالجة السلاسل النصية‎ Python المخصصةفي‎ PYDNA تم تطوير مكتبة‎ e 
agli البروتين ومجموعات البيانات الجينومية لتصنيف التعلم‎ / DNA / RNA لتسلسل‎ 

e‏ لزيادة أداء معالجة السلاسل النصية تسلسلات الحمض النووي الكبيرة» يوصى باستخدام 
NumPy ndarrys‏ حيثما أمكن ذلك. 

٠ه‏ تم تقديم وتحليل السلسلة النصية لترميز تسلسل الحمض النووي الرئيسية التالية: ترميز 
التسميات Label Encoding‏ والترميز الواحد الساخن .One-hot Encoding‏ وعد 
.K-mer Counting K-mer‏ 

0 تم تنفيذ خوارزمية حقيبة الكلمات bag of words‏ من معالجة اللغة الطبيعية لمعالجة 
السلاسل النصية لتسلسل الحمض النووي. 

o‏ يمكنأن يحدد التوحيد uniformity‏ طول تسلسل الحمض النووي عبر مجموعة البيانات 
خوارزمية التعلم الآلي المناسبة لاستخدامها. 

e‏ توفر نماذج مصنف نايف متعدد الحدود Multinomial Naive‏ وبيربيرسترون متعدده 
الطبقات Multi-layer Perceptron‏ أكثر من 97 / من درجة دقة التصنيف مع مجموعة 
DNA oth‏ متعددة الفتات ولا يوجد طول سلسلة موحد. 

e‏ يمكنأن يوفر نموذج الشبكات العصبية التلافيفية CININ‏ 97 / من دقة التصنيف مع طول 
سلسلة تسلسل الحمض النووي الموحد. 

e‏ يوفر نموذج الذاكرة طويلة المدى قصيرة المدى LSTM‏ أفضل نتيجة بنسبة 99.5/ من 
درجة دقة التصنيف مع طول سلاسل تسلسل الحمض النووي الموحد. 

LJ 


يوصى بشدة بتطبيق جميع خوارزميات تصنيف التعلم الآلي التقليدية والحديثة على أي 
مجموعة بيانات جينية ومعرفة النموذج الذي يوفر أفضل نتائج التنبؤ. 


المصدر: 


https://medium.com/mlearning-ai/apply -machine-learning-algorithms-for- 


genomics-data-classification- 132972933723 
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RNA-Seq بناء نماذج تجميع تعلم الآلة للتعبير الجيني لبيانات‎ (2 
Building Machine Learning Clustering Models for Gene 
Expression RNA-Seq Data 

1. المقدمة 

التجميع (التكتل) Clustering‏ هو مجموعة من التقنيات المستخدمة لتقسيم البيانات إلى مجموعات 
groups‏ أو تكتلات clusters‏ يتم تعريف التجميع بشكل فضفاض على أنها مجموعات من كائنات 
البيانات التي تشبه إلى حد كبير كائنات أخرىفي مجموعتها أكثر من كائنات البياناتفي مجموعات 
أخرى ((CK-Means Clustering in Python: A Practical Guide")‏ الهدف الأساسى من 
التجميع هو تجميع البياناتفي مجموعات بناءً على التشابه similarity‏ أو الكثافة density‏ أو الفواضل 
الزمنية intervals‏ أو مقاييس التوزيع الإحصائي particular statistical distribution measures‏ 
الخاصة لفضاء البيانات data space‏ ("مناهج التجميع القائمة على التعلم العميق للمعلوماتية 
الحيوية"). بشكل cele‏ يساعد التجميعفي تحليل البيانات غير المهيكلة وعالية الأبعادفي شكل تسلسلات 
وتعبيرات ونصوص وصور. 


2. استخدام خوارزميات التجميع في المعلوماتية الحيوية 

تحتوي بيانات التعبير الجيني Gene expression data‏ على بيانات المصفوفة الدقيقة ل DNA‏ 
(DNA microarray data)‏ وبيانات تسلسل , .(RINA-seq data) RNA‏ يساعد تحلیل بيانات 
المصفوفات الدقيقة على توضيح الآليات البيولوجية ودفع الأدوية نحو مستقبل أكثر قابلية للتنبؤ. مقارنة 
بتقنية المصفوفة الدقيقة القائمة على التهجين hybridizatüon-based microarray‏ 


RNA-seq ol «technology‏ لديها نطاق أكبر من مستويات التعبيرء ويتم الكشف عن المزيد من 
المعلومات ("إستراتيجية اختيار ميزة فعالة تعتمد على تقنية آلة المتجهات الداعمة المتعددة مع بيانات 
Tp ge‏ 


أحدثت المصفوفات الدقيقة للحمض النووي DNA microarrays‏ ثورةفي نهج تنميط التعبير الجيني. 
مقارنة بالطرق السابقةء تتمتع المصفوفات الدقيقة للحمض النووي بإنتاجية عالية جد وأقل تعقيدا. تم 
تطوير المصفوفات الدقيقة كأسلوب لرسم خرائط الحمض النووي على نطاق واسع وتسلسله. ومع 
ذلك فإن تغيير سطح الدعم من غشاء مسامي porous membrane‏ إلى سطح صلب solid surface‏ 
أتاح تحسينات كبيرة عن طريق زيادة حركية التفاعل وتقليل ضوضاء الخلفية. تستمر تقنية المصفوفات 
الدقيقة للحمض النوويفي التطور ("المصفوفات الدقيقة للحمض النووي من الفصل السابعفي 
UP ELTE UTERIS‏ 


التعلم العميق واستخداماته في المعلوماتية الحيوية 


بعض تطبيقات التجميع (iclustering‏ المعلوماتية الحيوية Bioinformatics‏ يمكن أن تكون: 
مجموعات محددة من المرضى الذين يستجيبون بشكل مختلف للعلاجات الطبية لتحديد المرض؛ 
تكشف عن مجموعات من الجينات ذات الصلة وظيفيًا حيث تشترك الجينات ذات المسافة الصغيرة 
في نفس أنماط التعبير وقد تكون متشابهة. يمكن أن يكون تصور البيانات البيولوجية عالية الأبعاد 
والواسعة النطاقفي مجملها غير المنظم وتفسيرها وتحليلها Vl‏ محيرًا ما لم يتم تنظيم البياناتفي 
مجموعات. مثال آخر هو تجميع الجينات أو الصور الطبية الحيوية من خلال تعلم الأنماط المخفية من 
مجموعة بيانات غير مسماة unlabeled dataset‏ ("إستراتيجية اختيار ميزة فعالة تعتمد على تقنية الة 
المتجهات الداعمة المتعددة مع بيانات التعبير الجيني'). 

أصبح RNA-Seq‏ البيانات الرئيسية لقياسات التعبير الجيني ويقدم العديد من المزايا على 
المصفوفات الدقيقة. علاوة على ذلك. أصبحت التجارب أحادية الخلية مشروعًا us‏ أساسيًا 
للمعلوماتية الحيوية حيث تعد خوارزميات التجميع جزءًا مهما من تنفيذ مشاريع التعلم الآلي 
.Machine Learning (ML)‏ 


في ورقة التعلم الآلي هذه سيتم تطبيق خوارزمية التجميع K-Means‏ لبناء نموذج متوقع لمجموعة 
بيانات تعبير الجيني ل .RINA-Seq‏ تعد خوارزمية التجميع هذه تقنية تعلم غير خاضعة للإشراف 
Unsupervised Learning‏ تستخدم لتحديد مجموعات كائنات البيانات متعددة الأبعادفي مجموعة 
بيانات. تعد خوارزمية التجميع K-Means‏ جزءًا من مكتبة إطار عمل ML scikit- Learning‏ 
الشهيرة. 


3. مجموعة بيانات RNA -Seq‏ للتعبير الجيني للسرطان 

يمكن تنزيل مجموعة بيانات RINA-Seq‏ للتعبير الجيني للسرطان من مستودع التعلم الآلي UCI‏ 
هذه المجموعة من البيانات هي جزء من مجموعة بيانات أطلس RNA-Seq (HiSeq) Pan-‏ 
Cancer Atlas‏ هو استخراج عشوائي للتعبيرات الجينية للمرضى الذين يعانون من أنواع مختلفة من 
الأورام بمافي ذلك سرطان الثدي الغازي (BRCA) Breast invasive carcinoma‏ وسرطان الخلايا 
الكلوية الصافية -(COAD) » Kidney renal clear cell carcinoma‏ سرطان القولون الغدي 
(COAD).Colon adenocarcinoma‏ وسرطان الغدة الرئوية Lung adenocarcinoma‏ 
LUAD)‏ وسرطان البروستاتا (PR AD) Prostate adenocarcinoma‏ يحتوي الملف الذي تم 
CTCGA-PANCAN-HiSeq-80120531.tar.gz «45575‏ على ملفين CSV‏ يمثل ملف 
0262.057 الميزة X‏ التعلم الال ويمثل ملف label. csv‏ بيانات الهدف y‏ (التسمية (label‏ تحتوي 
مجموعة البيانات على قيم RNA-Seq‏ للتعبير الجيني من 20531 جينا إلى 881 عينة. 
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تم توفير تحليل الفئة غير المتوازن imbalanced class analysis‏ مجموعة البيانات goia‏ ورقة 
"تصنيف التعبير الجيني RINA- Seq‏ باستخدام خوارزميات التعلم الآلي". يحتوي المخطط الشريطي 
bar chart‏ الموضح أدناه على فئة غير متوازنة لمجموعة البيانات الجينومية المختارة. 
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بعد تطبيق خوارزمية تقنية الإفراطني أخذ عينات الأقليات الاصطناعية Synthetic Minority‏ 
Oversampling Technique (SMOTE)‏ تمت موازنة جميع col‏ ب 300 صف لكل Lg‏ 
كما ترونني المخطط الشريطي الأخير أدناه. باستخدام مكتبة PYDNA‏ سيتم تحويل الميزة X‏ 
والتسمية y‏ باستخدام الدالة الموجودة أدناه -balance class smoteQ‏ 


8 


def balance class smote(X, y): 
"""X and Y smote over sampling 
args: 
X feature 
y label 
returns: 
smote X feature 
smote y label 
nw 
لدعا‎ 
smote over sampling = SMOTE(random state-50, n jobs--1) 
X, y - smote over sampling.fit resample(X, y) 
except: 
print(PyDNA.get exception info()) 
if PyDNA. app is log: PyDNA.write log file("error", 


التعلم العميق واستخداماته في المعلوماتية الحيوية 


PyDNA.get exception info()) 
return X, y 


# calling function 
X, y = PyDNA.balance class smote(X, y) 
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تم استخدام تحليل المكونات الرئيسية HJ Principal Component Analysis (PCA)‏ | عدد 
ميزات X‏ (الأعمدة) إلى 10-7 من 20531- يمكن تصور مجموعة البيانات غير المجمعة non-‏ 
clustered dataset‏ باستخدام المكونين الأو ل والثاني ل .PCA‏ يوجد أدناه الدالة 
pca x reduction()‏ ومخطط التصور. 


Count 
8 


8 


pca = PCA(n components-config.PCA N COMPONENTS COUNT, random state-50) 
def pca x reduction(pca, X): 
""" X feature reduction 
args: 
pca class object 
X feature 
returns: 
X new feature 
PCA explained variance 
cumulative sum of eigen values 
nw 
IESENE 
X > pca.fit transform(X) 
pca explained variance - pca.explained variance ratio 
cumulative sum eigenvalues - np.cumsum(pca explained variance) 
except: 
print(PyDNA.get exception info()) 
if PyDNA. app is log: PyDNA.write log file("error", 
PyDNA.get exception info()) 
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return X, pca explained variance, cumulative sum eigenvalues 


f calling function 
X = PyDNA.pca x reduction(pca component number, X) 


Nonclustered Cancer Gene Expression RNA-Seq 
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4. مقاييس تقييم تجميع K-Means‏ 

على عكس التعلم الخاضع للإشراف Machine Supervised Learning AVI‏ لدينا الحقيقة 
الأساسية لتقييم أداء النموذج» لا يحتوي تحليل المجموعات على مقياس evaluation metric e‏ 
قوي يمكننا استخدامه لتقييم نتائج خوارزميات التجميع المختلفة. علاوة على ذلك K- oM ls‏ 
25 تتطلب عدد المجموعات k‏ كمدخلات ولا تتعلمها من البيانات. فلا توجد إجابة صحيحة من 
حيث k‏ يجب أن تكون لدينافي أي مشكلة.في بعض الأحيان قد تساعد المعرفة والحدس بالمجال ولكن 
هذا ليس هو الحال عاددةً.في منهجية التنبؤ التكتلي ccluster-predict methodology‏ يمكننا تقييم 
مدى جودة أداء النماذج sU‏ على مجموعات (k clusters) k‏ المختلفة حيث يتم E‏ 
المجموعاتفي النمذجة النهائية. يمكنني أن أوصيت الجميع بقراءة وفهم الورقة البحثية "تجميع K-‏ 
الخوارزمية:» والتطبيقات . وطرق التقييم c‏ والعيوب". 


5. تحديد aac‏ المجموعات باستخدام طريقة الكوع 

يقة الكوع Elbow Method‏ هي الطريقة الأكثر شيوعًا لتحديد العدد الأمثل للعناقيد 
(المجموعات) clusters‏ تستخدم هذه الطريقة معلمة مجموع الخطأ التربيعي Sum of Squared‏ 
Error (SSE)‏ بين نقاط البيانات data points‏ والنقاط الوسطى للمجموعات clusters’ centroids‏ 
المخصصة لها. يجب تحديد قيمة المجموعة في المكان الذي يبدأ فيه OSSE‏ التسوية وتشكيل كوع. 
يوجد أدناه كود لحساب SSE‏ ومخطط طريقة الكوع. 


def calculate kmeans sse(X, max elbow number): 
""" calculate sum of squared error (sse) 
args: 
X feature 
max of elbow number 
returns: 
SSE 


nim 


EX 
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sse = [] 
for i in range(1, max elbow number): 
kmeans = KMeans(n clusters-i, random state-50) 
kmeans.fit (X) 
sse.append(kmeans.inertia ) 
except: 
print(PyDNA.get exception info()) 
if PyDNA. app is log: PyDNA.write log file("error", 
PyDNA.get exception info()) 
return sse 


def elbow method plot (Sum squared error, max elbow number): 
"""elbow method clustering plot 
args: 
sum squared error 
max of elbow number 
ge Ue 
None 
now 
CEY 
plt.grid(True) 
plt.plot(range(1, max elbow number), sum squared error) 
plt.title("Elbow Method - Cancer Gene Expression RNA-Seq") 
plt.xlabel("Number of clusters") 
plt.ylabel("Sum of Squared Error (Distortion)") 
plt.show() 
except: 
print(PyDNA.get exception info()) 
if PyDNA. app is log: PyDNA.write log file("error", 
PyDNA.get exception info()) 


f calling functions 

max elbow number = config.MAX ELBOW NUMBER 

sum squared error = PyDNA.calculate kmeans sse(X, max elbow number) 
PyDNA.elbow method plot(sum squared error, max elbow number) 
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كما نرى» يجب أن يكون العدد الصحيح من المجموعات خمسة. كل واحد منهم يمثل فئة السرطان. 
هناك طرق أخرى متاحة لتحديد العدد الأمثل للمجموعات بمافي ذلكفي المقالة "5 طرق لتقرير عدد 
المجموعاتفي نموذج الكتلة". 

6. الستخدام مكتبة Kneed‏ لتحديد aac‏ المجموعات 

تستخدم مكتبة kneed‏ للكشف عن ikä‏ الركبة .Python jknee-point detection‏ بالنظر إلى 
مجموعة من قيم X‏ و iy‏ سيعيد kneed‏ نقطة الركبة للدالة. نقطة الركبة knee-point‏ هي نقطة 
الانحناء الأقصى .point of maximum curvature‏ إذا كانت طريقة الكوع io‏ للغاية لتحديد 
عدد المجموعات. فإنني أوصي باستخدام هذه المكتبة للتحقق من العدد الأمثل الصحيح للمجموعات 


get kneed elbow point() وتحديده. يوجد أدناه كود دالة‎ optimal number of clusters 


الذي يحسب خمس مجموعات. كما ترون نتيجة مكتبة kneed‏ المطبقة. تحقق من صحة مستخدم 


def get kneed elbow point(x coordinate , y coordinate ): 
"""determine the kneed elbow point 
args: 
X coordinate 
y coordinate 


returns: 
kneed elbow point 
"mmi 
EE 
kneed locator - KneeLocator(x-x coordinate, y-y coordinate, 
curve-"convex", direction-"decreasing") 
kneed locator elbow = kneed locator.elbow 
except 
print(PyDNA.get exception info()) 
if PyDNA. app is log: PyDNA.write log file("error", 
PyDNA.get exception info()) 
return kneed locator elbow 


f calling functions 

max elbow number = config.MAX ELBOW NUMBER 

sum squared error = PyDNA.calculate kmeans sse(X, max elbow number) 
kneed locator elbow = PyDNA.get kneed elbow point (range (1, 

max elbow number), sum squared error) 

print(kneed locator elbow) 


Result: 5 


7. تطبيق نموذج التجميع K-Means‏ 
الآن بعد أن علمنا أن عدد المجموعات هو خمسة. يمكن تطبيق نموذج K-Means‏ كما هو موضح 
أدناه. 
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number clusters 


= config.NUMBER CLUSTERS 


k means — PyDNA.k means model(number clusters) 
y predicted - PyDNA.k means predict (X) 


cluster centroids 


PyDNA.k means cluster centroids(kmeans.cluster centers ) 
print(cluster centroids) 


فيما يلى النقط الوسطى للمجموعة cluster centroids‏ لمجموعة البيانات المحددة. 
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باستخدام نموذج K-Means‏ والتسميات المتوقعة predicted labels‏ . يمكننا رسم المجموعات 
الخمس لكل نوع من للتعبير الجيني لبيانات RINA-seq‏ للسرطان. 


Clustered Cancer Gene Expression RNA-Seq 


PCA Second Component 


-100 -50 


0 50 100 150 
PCA First Component 


K -Means المعدل ل‎ vlj uu$ o مقياس‎ .8 


المقياس الشائع للتحقق من أداء نموذج K-Means‏ يسمى مؤشر Rand‏ المعدل Adjusted Rand‏ 
Index (ART)‏ على عكس معامل «(Silhouette Coefficient) Silhouette‏ يستخدم ARI‏ 


بين -1.0 و 1.0. تشير الدرجة القريبة من 0.0 إلى تعيينات عشوائيةء وتشير الدرجة القريبة من 1.0 
إلى مجموعات مسماة -GLS‏ يتم تحديد ARI‏ أدناه بمقدار -0.5 للتجمعات المتنافرة بشكل خاص. 
يحسب سطر الكود أدناه قيمة ARI‏ باستخدام الدالة .aleulate adjusted rand score()‏ يمثل 
الرقم 0.98 ell‏ جيدا جدا لنموذج K-Means‏ المحدد لدينا. 
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def calculate adjusted rand score(y, y predicted): 
""" calculate the adjusted rand score 
args: 
y label 
y predicted label 
returns: 
adjusted rand score 
LELEII 
CEY: 
adjusted rand index = adjusted rand score(y, y predicted) 
adjusted rand index - 
float("(0:0.2f£)".format(adjusted rand index)) 
except: 
print(PyDNA.get exception info()) 
if PyDNA. app is log: PyDNA.write log file("error", 
PyDNA.get exception info()) 
return adjusted rand index 


f calling function 
adjusted rand index = PyDNA.calculate adjusted rand score (y, 


y predicted) 
print(adjusted rand index) 


Result: 0.98 


يمكن إنشاء مخطط مجمع ثلاثي الأبعاد باستخدام مكتبة -matplotlib‏ 
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9. تحليل صورة Silhouette‏ لتجميع K-Means‏ 

يستخدم تحليل (Silhouette Analysis) Silhouette‏ لدراسة المسافة الفاصلة بين العناقيد الناتجة. 
eJ Coi Silhouette i) «e biagi‏ قرب كل Sol Ae pneus Ais‏ ن nasibe‏ 
في المجموعات المجاورة: وبالتالي يوفر طريقة لتقييم المعلمات مثل عدد المجموعات بصريًا. هذا 
المقياس له مدى [1 ,1-]. 


للمساعدةفي تحديد العدد الأمثل للمجموعاتء. يوفر تحليل صورة Silhouette‏ هذا مقياسين 
رئيسيين. silhouette samplesO‏ — حساب معامل Silhouette‏ لكل عينة. أفضل قيمة هى 1 
وأسوأ قيمة هي -1. تشير القيم القريبة من 0 إلى مجموعات متداخلة. silhouette score()‏ - 
حساب متوسط معامل صورة Silhouette‏ لجميع العينات. ترجع هذه الدالة متوسط معامل صورة 
Silhouette‏ على جميع العينات. للحصول على قيم كل عينةء استخدم „silhouette samples)‏ 
أفضل قيمة هي 1 وأسوأ قيمة هي -1. تشير القيم القريبة من 0 إلى مجموعات متداخلة. تشير القيم 
السالبة بشكل عام إلى أنه تم تعيين عينة إلى المجموعة الخاطئة. حيث أن المجموعة المختلفة أكثر 
تشابها. هذا هو الكود لحساب قيمة نتيجة صورة Silhouette‏ 

def calculate print silhouette 5262 (XJ; 

"""Ccalculate silhouette score for each cluster number 

args: 

X feature 


returns 
None 


"mw 
Erys 
range number Clusters > (27 37 4, 51 
for number cluster in range number clusters: 
print(number cluster) 
kmeans = KMeans(n clusters-number cluster, 
random state-50) 
y cluster labels = kmeans.fit predict (X) 
silhouette score avg = silhouette score(X, 
y cluster labels) 
print(silhouette score avg) 


except: 
print(PyDNA.get exception info ()) 
if PyDNA. app is log: PyDNA.write log file("error", 
PyDNA.get exception info()) 


f calling function 
PyDNA.calculate print silhouette score (X) 


بالنسبة لمجموعة البيانات الخاصة بناء يعرض الجدول أدناه قيم درجات صورة Silhouette‏ المحسوبة 
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Number of Clusters Silhouette Score 


كما يمكننا أن نرى أعلى قيمة لدرجة صورة Silhouette‏ هي 7 لخمس مجموعات. لذلك e‏ 
التحقق من العدد الأمثل للمجموعات لمجموعة البيانات الخاصة بنا على أنه خمسةء كما ينبغى أن 
يظهر مخطط الصورة Silhouette‏ أدناه. يعطي سمك هذه المخطط مؤشرا على حجم كل مجموعة. 


إنه يثبت أنه بالنسبة لخمس مجموعات, أعلى قيمة لدرجة صورة Silhouette‏ هي 0.57. 
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Silhouette Analysis Plot (4 clusters) Visualization of Clustered Data 
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10. الاستنتاجات 

cu .1‏ خوارزمية التجميع K-Means‏ أنها خيار جيد للتعبير الجيني متعدد الأبعاد 
لمجموعات بيانات .RINA-Seq‏ 
توفر طريقة الكوع حلاً رسوميًا بسيطًا لتحديد العدد الأمثل للمجموعات. 
يمكن لمكتبة Need‏ أن تحدد وتتحقق من العدد الأمثل للمجموعات للتعبير الجينى متعدد 
الأبعاد لمجموعات بيانات ٠ .RNA-Seq‏ 
تعد قيمة مؤشر Rand‏ المعدل مقياسًا Deas‏ للتحقق من أداء نموذج .K-Means‏ 
يوفر تحليل صورة Silhouette‏ حلاً جيدا لتحديد العدد الأمثل للمجموعات باستخدام 
حسابات عينات صور Silhouette‏ ومقاييس النتيجة „score metrics‏ 
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المصدر: 


https://ernest-bonat.medium.com/building-machine-learning-clustering- 


models-for-gene-expression-rna-seq-data-d0e5af10416d 


3( تصنيف التعبير الجيني ل RNA-Seq‏ باستخدام خوارزميات التعلم الآلي 


3( تصنيف التعبير الجيني ل RINA-Seq‏ باستخدام خوارزميات التعلم الآلي 
RNA-Seq Gene Expression Classification Using Machine‏ 
Learning Algorithms‏ 

1. نظرة عامة 

من موقع المعهد القومي لبحوث الجينوم البشري National Human Genome Research‏ 
Institute (NHGRD‏ يمكننا أن نرى بعض أمثلة تطبيقات الذكاء الاصطناعي / التعلم الآليني ele‏ 


o‏ فحص وجوه الأشخاص باستخدام برامج الذكاء الاصطناعي لتحليل الوجه لتحديد 
الاضطرابات الوراثية بدقة. 

liquid. استخدام تقنيات التعلم الآلي لتحديد النوع الأساسي للسرطان من الخزعة السائلة‎ e 
biopsy 


e‏ توقع كيفية تطور نوع معين من السرطان لدى المريض. 

ه تحديد المتغيرات الجينية genomic variants‏ المسببة للأمراض مقارنة بالمتغيرات 
الحميدة benign variants‏ باستخدام التعلم الآلي. 

CRISPR استخدام التعلم العميق لتحسين وظيفة أدوات تحرير الجينات مثل كريسبر‎ e 


دعونا نعرف التعبير الجيني gene expression‏ . التعبير الجيني هو العملية التي يتم من خلالها استخدام 
المعلومات المشفرةفي الجين إما لصنع جزيتات ARNA‏ ترمز للبروتينات أو لصنع جزیثات RNA‏ 
غير مشفرة تخدم وظائف أخرى. يعمل التعبير الجيني بمثابة "مفتاح تشغيل / إيقاف" للتحكمني متى 
وأين يتم تصنيع جزيئات وبروتينات الحمض النووي الريبي RNA)‏ و"التحكمفي الحجم volume‏ 
"control‏ لتحديد مقدار هذه المنتجات التي يتم تصنيعها. يتم تنظيم عملية التعبير الجيني بعناية 
وتتغير بشكل ues‏ ظل ظروف مختلفة. تعمل منتجات RNA‏ والبروتين للعديد من الجينات على 
تنظيم التعبير عن الجينات الأخرى. 

ستغطي المقالة هذه كيفية تطبيق خوارزميات التعلم الآلي للتصنيف على مجموعة بيانات التعبير الجيني 
12118-56. بشكل ele‏ تعد هذه الأنواع من مجموعات البيانات متعددة الأبعاد وتحتوي على آلاف 
الأعمدة غير المسماة -unlabeled columns‏ بسبب هذا التطبيق المحدد للتعلم SI‏ ضروري لتطوير 
نماذج إنتاج عالية الأداء. سيتم توفير خطوات سير عمل التعلم الآلي المطلوبة باستخدام نماذج 
التصنيف الأكثر شيوعًا اليوم. ورقة البحث هذه هي استمرار لتطوير نماذج التعلم الآلي ونشرها لتحليل 
مجموعات البيانات الجينومية. أدناه هو الأحدث: 
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e‏ "تطبيق خوارزميات التعلم الآلي لتصنيف بيانات الجينوم ". إرنست بونات» دكتوراه» بيش 
رياماجي. ماجستير. 03 فبراير 2021. 

"Flask Web Framework التعلم الآلى لعلم الجينوم باستخدام‎ (Qe "نشر الويب‎ e 
.2022 إرنست بونات. دكتوراه » 18 يونيو‎ 

e‏ "ناء نماذج مجموعات تعلم الآلة لبيانات RINA- Seq‏ للتعبير الجيني". إرنست بونات» 
دكتوراه . 28 ديسمير 2022. 


2. تحميل سريع لمجموعة بيانات التعبير الجيني RNA -Seq‏ 

في الورقة هذه. سيتم استخدام مجموعة بيانات RINA-Seq‏ الخاصة بسرطان التعبير الجيني. هذه 
المجموعة من البيانات هي جزء من مجموعة بيانات طلس RNA-Seq (HiSeq) Pan-Cancer‏ 
Atlas‏ وهي عبارة عن استخراج عشوائي للتعبيرات الجينية للمرضى الذين يعانون من أنواع مختلفة 
من الأورام بمافي ذلك BR CA‏ - سرطان الثدي الغازيء KIRC‏ — سرطان الخلايا الكلوية الصافية 
COAD‏ — سرطان القولون الغدي. LUAD‏ — سرطان الغدة الرئوية PRAD;‏ 2 سرطان البروستاتا 
الغدي. يحتوي الملف الذي تم تنزيله TCGA-PANCAN-HiSeq-80120551.tar.gz‏ على 
ملفين CSV‏ . ملف data. csv‏ الذي يمثل الميزة GX‏ التعلم الآلي وملف lable.csv‏ الذي تمثل بيانات 
(التسمية) الهدف y‏ يوجد أدناه معلومات إطار بيانات مكتبة الباندا لكل منهم. Pandas‏ هي أداة تحليل 
ومعالجة بيانات مفتوحة المصدر سريعة وقوية ومرنة وسهلة الاستخدام. مبنية على قمة لغة برمجة 


.Python 


-(data.csv (ملف‎ X لميزة‎ 


«class "pandas.core.frame.DataFrame'» 
RangeIndex: 801 entries, 0 to 800 

Columns LOS SN رفم دهت‎ Gene 10 te Gene 20530 
dtypes: float64(20531) 

memory usage: 125.5 MB 

None 


أثناء تطوير نموذج التعلم الآلي واختباراته. ستحتاج ملفات CSV‏ هذه إلى التحميل عدة مراتفي برنامج 
.Python IDE‏ بشكل عام تبلغ المدة الزمنية لتحميل هذه الملفات حوالي 18-16 ثانية (وفقا 
لجهاز الكمبيوتر المحمول الخاص بي). سيؤدي هذا إلى زيادة كبيرةفي وقت التطوير للتنفيذ النهائي 
للنموذج الإجمالي. السؤال هو: كيف يمكن تسريع عملية تحميل البيانات؟ تتمثل إحدى الطرق السهلة 
في إجراء تسلسل serialize‏ للكائنات X‏ و y‏ مرة واحدة ثم إلغاء تسلسلها deserialize‏ عدة مرات.في 
المرة التالية التي تقوم فيها بتشغيل ملف «Python‏ ستحتاج إلى إلغاء تسلسل X‏ و y‏ فقط حسب 
الحاجة. يمكن لتقنية تحميل ملفات Python CSV‏ أن تقلل من وقت التطوير حتى 2-1 ثانية لكل 
تنفيذ - فكرة ممتازة بنتيجة جيدة! يمكن إجراء تسلسل الكائن وإلغاء التسلسلفي Python‏ عن طريق 


3( تصنيف التعبير الجيني ل RNA-Seq‏ باستخدام خوارزميات التعلم الآلي 


استيراد وحدات pickle‏ أو .joblib‏ أود أن أوصي كل مطور تعلم آلي بتنفيذ تقنية تحميل البيانات 
متعددة الأبعاد multi-dimensional data loading‏ السريعة إذا لزم الأمر. 


إليك كود PYDNA‏ لتسلسل وإلغاء تسلسل كائنات الباندا X‏ و y‏ 


# X feature:rna seq X path = os.path.join(rna seq pkl path, 
Enel See sS 

PyDNA.pickle serialize object(rna seq X path, X) 

X = PyDNA.pickle deserialize object(rna seq X path)# y 
target:rna seq y path = os.path.join(rna seq pkl path, 

Aene SEG VDE) 

BDA olode serielize oyec (semel SES y ملك هه‎ V) 

y= PyDNA.pickle deserialize object(rna seq y path) 


3. تحليل الفثة غير المتوازن لمجموعة بيانات التعبير الجيني RANA -Seq‏ 
تعد الفئة غير المتوازنة imbalanced class‏ للبيانات المستهدفةفي مجموعات بيانات الأعمال 
الحقيقية مشكلة شائعة جد اليوم. هناك العديد من الأوراق المكتوبة حول مسألة التصنيف المهمة هذه 
المطبقة على مشاريع التعلم الآلي. على سبيل المثال» تحتوي ورقة كيفية التعامل مع البيانات غير 
المتوازنة بايثون على معلومات ممتازة حول حلول بايثون لموازنة الفئة غير المتوازنة المستهدفة. يحتوي 
المخطط الشريطي الموضح أدناه على فئة غير متوازنة لمجموعة البيانات الجينومية المختارة. 


Gene Expression Cancer RNA-Seq Dataset 
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بعد تطبيق خوارزمية تقنية الإفراطفي أخذ عينات الأقليات الاصطناعية (SMOTE)‏ تمت موازنة 
جميع الفئات ب 300 صف لكل منها كما ترونفني المخطط الشريطي الأخير أدناه. 


Count 
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Gene Expression Cancer RNA-Seq Dataset 
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تم تطبيق سطر ls‏ من كود Python‏ للحصول على هذا المطلب. 

X train, y train - PyDNA.balance class smote(X train, y train) 
على مجموعة بيانات التعبير الجيني ل‎ (PCA) qui JI تطبيق تحليل المكون‎ 4 
RNA-Seq 
على 20531 عمودًا للتعبير الجيني. سنحتاج إلى تقليل‎ X كما نعلم بالفعل» يحتوي إطار بيانات ميزة‎ 
هذا العدد من الأعمدة بشكل كبير لتطبيق خوارزميات التعلم الآلي بشكل صحيح على مجموعة البيانات‎ 
هذه. الأسئلة الرئيسية هنا هي كيفية تحديد عدد الأعمدة التي يجب تقليلها؟ دعونا نلقي نظرة على حل‎ 
تقليل الميزات أولاً.‎ 
dimensional المعروف أيضًا باسم تقليل الأبعاد‎ Feature reduction تقليل الميزات‎ 
هو عملية تقليل عدد الميزاتفي الحسابات ثقيلة الموارد دون فقدان المعلومات المهمة.‎ creduction 
تقليل عدد الميزات يعني تقليل عدد المتغيرات مما يجعل عمل الكمبيوتر أسهل وأسرع. يمكن تقسيم‎ 
feature واستخراج الميزة‎ feature selection. تقليل الميزات إلى عمليتين: اختيار الميزة‎ 
هناك العديد من التقنيات التي يتم من خلالها تقليل الميزات. بعض من أكثرها شيوعًا‎ extraction 
والمشفرات التلقائية‎ .generalized discriminant analysis هي تحليل التمييز المعمم‎ 
A 5:non-negative matrix factorization ووعوامل المصفوفة غير السلبية‎ 35 
هي الخوارزمية الأكثر شيوعًا‎ PCA PCA لتحليل المكونات الرئيسية‎ One-Stop Shop 
المستخدمة لتقليل الميزاتفي سير عمل مشاريع التعلم الآلي اليوم.‎ 
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هناك طريقة بسيطة لتحديد الكمية الضرورية للمكونات الرئيسية عن طريق حساب نسبة التباين المفسرة 
الفردية. تحتوي الورقة البحثية شرح PCA‏ مفاهيم التباين باستخدام مثال Python‏ على شرح جيد 
جد لهذه التقنية بمافي ذلك كود Python‏ أيضًا. 


من المخطط الشريطي أدناه. یمکننا أن نرى أن أخذ 8-7 مكونات رئيسية principal components‏ 
من 20531 عمودًا سيكون GS‏ لاستخدام أي خوارزميات "تعلم "UY‏ للتصنيف .classification‏ 
بالطبع» ستقرر قيم مقاييس التصنيف النهائية ما إذا كان هذا الاختيار صحيحًا أم لا. سيتم تقديم المزيد 
من الشرح حول هذا الموضوع بعد تطبيق خوارزميات "التعلم الآلي" للتصنيف. 

PCA Individual Explained Variance 


-—— Cumulative Explained Variance 
» Individual Explained Variance 
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Principal Components 


في تجربتي» تعمل PCA‏ بشكل جيد للغاية بالنسبة لي مع العديد من مجموعات البيانات عالية الأبعاد. 
إليك كود Python‏ لحساب نسبة التباين الموضحة والمجموع التراكمي لقيم المتجهات الذاتية 
eigenvectors‏ لجميع المتجهات الذاتية. 


peal PCA(n components-config.PCA N COMPONENTS COUNT, random state-100) 
X train, X valid, pca explained variance, cumulative sum eigenvalues - 
PyDNA.X train valid pca(pca, X train, X valid) 


5. تطبيق خوارزميات تصنيف التعلم (JUI‏ على مجموعة بيانات التعبير الجيني ل 
RNA-Seq‏ 
مطلوب خطوات سير عمل التعلم الآلي الاثنتي عشرة التالية لتطبيق أي خوارزمية تصنيف تقليدية: 

-Data loading and object serialization تحميل البيانات وتسلسل الكائن‎ .1 

2. إلغاء تسلسل كائن البيانات .Data object deserialization‏ 
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-Target data flattening and encoding تسطيح البيانات الهدف وترميزها‎ 

البيانات مقسمة إلى تدريب training‏ )780( التحقق من الصحة validation‏ )710( 
واختبار test‏ )710( 

توازن بيانات تدريب ميزة Balance feature training data‏ إذا لزم الأمر. 


EN 


.Feature training data scaling تحجيم بيانات تدريب ميزة‎ 
Feature data PCA dimensional reduction . PCAà 44JI تقليل أبعاد بيانات‎ 
classification model development and «5; تطوير نموذج التصنيف‎ 


Xu O ü‏ من 


-optimization 
. Classification model fitting تطبيق نموذج التصنيف‎ .9 
-Model target prediction بنموذج الهدف‎ JI .10 
للتحقق من بيانات التحقق من الصحة‎ Classification metrics حساب مقاييس التصنيف‎ . 1 
والاختبار‎ 
Production model deployment and maintenance «bl; نشر نموذج الإنتاج‎ .2 
يوضح الجدول أدناه نتائج تطبيق اثنتي عشرة خوارزمية تصنيف كلاسيكية للتعلم الآلي لمجموعة‎ 
البيانات المختارة لدينا. مقاييس إخراج التصنيف الرئيسية هي درجات دقة التحقق من الصحة والاختبار‎ 


. validation and test accuracy scores 


Classification Algorithm Validation Accuracy Score, | Test Accuracy Score, 
% % 
Logistic Regression 95.0 96.29 
Decision Tree 90.0 93.82 
Random Forest 97.50 97.53 
Support Vector Machine | 93.75 96.29 
Multinomial Naive Bayes 95.0 95.62 
K-Nearest Neighbors 97.50 98.71 
Multi-Layer Perceptron 97.51 97.53 
Gradient Boosting 97.50 93.82 
Ada Boost 86.25 80.24 
Extreme Gradient Boosting 97.50 95.06 
Light Gradient Boosting Machine 98.75 98.76 
CatBoost 96.25 97.76 


الفائز هو آلة تعزيز التدرج الخفيف Light Gradient Boosting Machine (LightGBM)‏ 
بنسبة 7.98.76 من درجات دقة اختبار التصنيف. Light GBM‏ هو إطار عمل مجاني ومفتوح المصدر 
لتعزيز التدرج الموزع للتعلم الآلي تم تطويرهني الأصل بواسطة Microsoft‏ عام 2016. ويستند إلى 
خوارزميات شجرة القرار Decision Tree‏ ويستخدم للترتيب ranking‏ والتصنيف classification‏ 
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ومهام التعلم AI‏ الأخرى. ينصب تركيز التطوير على الأداء performance‏ وقابلية التوسع 
.scalability‏ 


فيما يلي نتائج البرنامج لخوارزمية المصنف LightGBM‏ 


MODEL VALIDATIONvalid accuracy score: 

98.75valid precision: 

98.88valid recall: 

98.75valid f1 score: 
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accuracy score: 
98.76test precision: 
98.84test recall: 
98.76test f1 score: 
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[0 0 0 0 14]]test classification report: precision 
recall fl-score support0.0 100 dL 51010 1L «(0 
30 
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من الجيد الإشارة إلى مدى جودة عمل خوارزميات تعزيز التدرج gradient boosting algorithms‏ 
مع هذا النوع من مجموعات البيانات غير المصنفة -unlabeled dataset‏ توفر خوارزميات الغابة 
العشوائية Random Forest (RF)‏ وبيرسيبترون متعدد الطبقات Multi-Layer Perceptron‏ 
(MLP)‏ نتائج جيدة or‏ بنسبة دقة تبلغ 97.53/. هذه علامة جيدة جد لأن العديد من الشركات 
تستخدم RE‏ كخوارزمية رئيسية لمشروع التعلم الآلي. cus‏ ۸۴ أنه ينشئ نماذج انحدار وتصنيف 
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ممتازة مع العديد من مجموعات البيانات التجارية المختلفة للشركة. كانت نتيجة الاهتمام الأخرى هي 
خوارزمية K- Nearest Neighbours (KNN)‏ بدرجة دقة عالية بلغت 98.71/. هذه هي المرة 
الأولى التي رأيت فيها هذه النتيجة. من المنطقي تجربة KNN‏ بمجموعات بيانات مختلفة للتعبير 
الجيني.في ورقة مستقبلية أود معرفة مدى جودة خوارزميات التعلم العميق مع هذا النوع من مجموعات 
البيانات. يمكن أن يكون السؤال الرئيسي: هل يمكن أن يكون أداء CNN‏ أو LSTM‏ أفضل من 
LigthGBM‏ بنسبة 98.76/ من درجة دقة التصنيف؟ 


6. اختيار مكونات كمية PCA‏ باستخدام تباين درجات دقة التصنيف 

تعد درجة الدقة accuracy score‏ أحد المقاييس الرئيسية للتحقق من أداء نماذج التصنيف. من 
الواضح أنه $t‏ على تحليل PCA‏ وجدول نتائج خوارزميات التصنيف. فإن 8-7 مكونات رئيسية 
principal components‏ ستؤدي المهمة. هناك طريقة أخرى. لم أرها من قبل» وهي تصور كيف 
تختلف درجات التحقق من التحقق من الصحة والاختبار بناءً على كمية المكونات الرئيسية المختارة. 
يوضح الشكل أدناه كيف حصلت كلتا درجات الدقة على القيم القصوى واقتربت من ست مكونات 
رئيسية محددة. هذا دليل آخر على اختيارنا الصحيح المكون من 8-7 مكونات رئيسية. 


Classification Validation and Test Accuracy Scores 


100- ل‎ validation 


— Test 
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Prir cipal Component 
validation classification لحساب مقاييس تصنيف التحقق من الصحة‎ Python يوجد أدناه كود‎ 
المطلوية.‎ metrics 


print("MODEL VALIDATION") 

aecouracyescoresvalue m precisqsongvalue FEecall value, f1 SeoEe Value, 
confusion matrix value, classification report value - 
PyDNA.calculate classification metrics(y val, y predicted) 

print ("valid accuracy score: WMní)Mn".format (accuracy score value)) 
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print ("valid precision: 5121752" . format (precision value) ( 
print("valid recalls Nn()]in".format (recall value)) 

print("valid El score: 'Nn()in".format(fl score value)) 

print("valid confusion matrix: Nn(Nn".format(confusion matrix value)) 
print("valid classification report:Mn( 

\n". format (classification report value)) 


( 
(um 
(um 
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7. الانستنتاجات 

1. ستؤدي كائنات pandas‏ التي يتم تحميلها إلى التسلسل serialize‏ وإلغاء التسلسل 
deserialize‏ إلى تسريع عملية تطوير نماذج التعلم LUI‏ وتحسينها 

2. الفئة غير المتوازنة المستهدفة Target imbalanced class‏ هي مشكلة يجب حلها قبل 
تطبيق خوارزميات التعلم الآلي للتصنيف. يمكن أن يكون استخدام تقنية ÉK SMOTE‏ 
جيدا للبدء. 

3. سيكون تقليل الميزات Feature reduction‏ مطلوبًا لمجموعات بيانات التعبير الجيني 
متعدد الأبعاد. يمكن أن يكون PCA‏ هو الخيار الأمثل مع تحليل التباين الموضح الفردي 
والتصور. 

4. تضمن نماذج تعزيز التدرج التقليدية للتصنيف Traditional classification gradient‏ 
boosting models‏ نتائج مقاييس جيدة مع مجموعة بيانات .Pan-Cancer Atlas‏ 

5. يمكن التحقق من صحة اختيار كمية المكون الرئيسى principal component quantity‏ 
وتصوره باستخدام اختلاف کجات tis‏ ااه 

6. يوصى بشدة بتطبيق جميع خوارزميات تصنيف التعلم الآلي التقليدية والحديثة على أي 
مجموعة بيانات جينية ومعرفة النموذج الذي يوفر أفضل نتائج التنبؤ. 


المصدر: 


https://ernest-bonat.medium.com/rna-seq-gene-expression-classification- 


using-machine-learning-algorithms-de862e60bfdO 


4( تعلم الآلة لعلم الجينوم 74 


Machine Learning For Genomics تعلم الآلة لعلم الجينوم‎ (4 

(كيفية تحويل بيانات الجينوم لتناسب e 3Lo3‏ التعلم الآلي) 
أصبح التعلم الآلي Machine learning‏ شائعًا. ومع ذلك فهي ليست حالة استخدام شائعفي مجال 
المعلوماتية الحيوية Bioinformatics‏ والبيولوجيا الحاسوبية .Computational Biology‏ هناك 
عدد قليل جد من الأدوات التي تستخدم تقنيات التعلم الآلي. تم تطوير معظم الأدوات على رأس 
الأساليب والخوارزميات القطعية.في هذه المقالة سأقدم كيف يمكننا ترتيب بياناتنا بحيث يتم 
استخدامها بشكل فعالفي نموذج التعلم الآلي. 
مجالات التطبيق 
هناك العديد من السيناريوهاتفي علم الجينوم genomics‏ والتي قد نستخدم فيها التعلم الآلي. يمكن 
استخدام المجالات الرئيسية للتجميع Clustering‏ والتصنيف Classification‏ في علم الجينوم للقيام 
بمهام مختلفة. عدد قليل منهم على النحو التالي: 


(Unsupervised Learning التجميع (التعلم غير الخاضع للإشراف‎ e 
Binning of Metagenomics Contigs تجميع الكونتيجات الميتاجينومية‎ .1 
Identification of Plasmids and تحديد البلازميدات والكروموسومات‎ .2 
Chromosomes 
Clustering reads into Jضفأ الكروموسومات لتجميع‎ di التجميع‎ .3 
.chromosomes for better assembly 
Identification of Plasmids تجميع القراءات كمعالج أولي لتجميع القراءات‎ .4 
and Chromosomes 
(Supervised Learning التصنيف (التعلم الخاضع للإشراف‎ ه٠‎ 
«genus الجنس‎ .phylum (الشعبة‎ classes تصنيف التسلسلات الأقصر إلى فتات‎ .1 
إلخ)‎ «species الأنواع‎ 
Phylogenetic inference of the sequences للتسلسلات‎ | 5l; JI الاستدلال‎ 
Detection of Plasmids and الكشف عن البلازميدات والكروموسومات‎ 
Chromosomes 
Finding coding regions البحث عن مناطق الترميز‎ .4 
Chromosome prediction in التنبؤ بالكروموسومني الجينوميات البشرية‎ 


human genomics 
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يمكن أن تمتد القائمة إلى أبعد من ذلك بكثيرء على الرغم من أنني قمت بإدراج بعض المجالات التي 
كانت لدي خبرة فيها. 


تحويل البيانات واختيار النموذج 

من بين الخطوتين. التحول transformation‏ واختيار النموذج model selection‏ سأعتبر أن الأولى 

ذات أهمية أعلى. هذا لأنه بدون قاعدة صلبة لتمثيل البيانات» قد لا نحصل على أقصى استفادة من 

adl يرد يكل‎ od يكو‎ col ined Az, Ail قان المسضول عاق انات‎ als ومع‎ ic pa 

بشكل معقول حتى لو كان نموذجنا يبدو فقيرًا. یمکننا النظرني البيانات ضمن فتتين. 

البيانات المتسلسلة 

تشير البيانات المتسلسلة Sequential Data‏ إلى البيانات التي يتوافق فيها ترتيب البيانات التي يتم 

تغذيتها إلى النموذج مع الترتيب الفعلي للبياناتفي مجموعة البيانات. دعنا نلقي نظرة على المثال التالي. 
1. التنبؤ بمناطق ترميز البروتين Prediction of Protein Coding Regions‏ 


في هذا السيناريو« سننظرفيٍ قواعد النوكليوتيدات المتتالية consecutive nucleotide‏ 
65 وترتيبها. خلاف ذلك. لن يكون له معنى.في مثل هذا السيناريو, يمكننا تحويل البيانات 
إلى جمل تحتوي على كلمات متقطعة متتالية consecutive trimer words‏ 


Taxonomic Label Prediction التنبؤ بالتسمية التصنيفية‎ .2 


في هذا السيناريوه نحتاج إلى دقة أعلى حيث يمكن أن تكون ترددات قليل النوكليوتيد متشابهة 
جد بين الأنواع ولها تميز منخفض جد بين أنواع معينة. لذلك, سننظرفي eU]‏ جمل k-‏ 
mer‏ لقيم k‏ أعلى من 5 أو 7 كجمل. 
دعونا نتأمل المثال التالي. سأستخدم النوعين Pseudomonas aeruginosa (CP007224.1)‏ و 
Lactobacillus fermentum (AP008937.1)‏ لإثبات التحول إلى جمل كلمة k-mer‏ (أول 50 
قاعدة معروضة). 


Pseudomonas aeruginosa 

TTTAAAGAGACCGGCGATTCTAGTGAAATCGAACGGGCAGGTCAATTTCCLactobacillus 
fermentum 
TTGACTGAGCTCGATTCTCTTTGGGAAGCGATCCAAAATTCATTCCGTAA 


oM‏ يمكننا تحويل هذا إلى كلمات مقتطعة trimer words‏ لاظهار الناتج التالي. 


Pseudomonas aeruginosa 

TTT TTA TAA AAA AAG AGA GAG AGA GAC ACC CCG CGG GGC GCG CGA GAT ATT 

TTC TCT CTA TAG AGT GTG TGA GAA AAA AAT ATC TCG CGA GAA AAC ACG CGG 

GGG GGC GCA CAG AGG GGT GTC TCA CAA AAT ATT TTT TTC TCCLactobacillus 
fermentum 

WG MGA IGAC ACi GIG MEA CAG AOC ECU CIC MOG Cea Cadi JAIE WIE ال‎ CIE 
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MET ET TTD ITE TEC CEC CEA GAN Avec; AEC CEE CECA GAT ATE TEC EER CAR 
JAAA JAAVA AM AM MNE OMOEA OAL AME NCE MEC COE CON OMS BAS 


الآن بعد أن أصبح لدينا جمل من الكلمات. أصبحت المعالجة مشابهة لتلك الخاصة بتحليل المشاعر 
sentiment analysis‏ الفكرة الأساسية هى الحفاظ على طول الجملة. والذي يمكنك تحديده بناءً 
على متوسط طول التسلسلات. 


نموذج مناسب للبيانات المتسلسلة 

نظرًا oY‏ ترتيب k-mers‏ مهمني السيناريو أعلاه. يمكننا بسهولة استخدام الشبكة العصبية المتكررة 
Recurrent Neural Network (RNN)‏ أو نموذج الذاكرة طويلة قصيرة المدى Long Short‏ 
Term Memory model (LSTM)‏ هذا بسبب قدرتهم على الحفاظ على ترتيب العناصر كعلاقة 
زمنية. 

ومع «3s‏ السيناريو cel‏ يجب استخدام الترميز tokenization‏ متبوعا بطيقة تضمين الكلمة 
b .word embedding layer‏ كد من اختيار المشفرات encoders‏ والمميزات ġtokenizers‏ 
ملف (تسلسل (serialise‏ بحيث يكون لديك المشفر للتنبؤات AN‏ هنا kmer strings‏ ھی الجمل 
التى أنشأتها والفتات classes‏ هى التسمية المحددة. 


tokenizer = Tokenizer() 
tokenizer.fit on texts(kmer strings) 
vocab size > len(tokenizer.word index) * 1 


encoded docs = tokenizer.texts to sequences(kmer strings)binarizer = 
preprocessing.LabelBinarizer() 
labels encoded - binarizer.fit transform(classes) 


فيما يلي أحد النماذج التي استخدمتها لتصنيف التسلسل قبل بضعة أيام باستخدام Keras‏ 
Sequential API‏ أقوم بتضمين الكلماتفي 5 أبعاد من الأبعاد 32 الأولية (هناك 32 أداة تشذيب 
فريدة unique trimers‏ تدمج المكملات العكسية للخيط السفلي lower strand‏ . 


model = Sequential() 
model.add(Embedding(vocab size, 5)) 
model.add (Bidirectional (LSTM (5) ) ) 

model.add (Dense (30, activation = 'relu')) 
model.add(Dropout(0.2)) 

model.add(Dense(20, activation = 'relu!')) 
model.add (Dropout (0.2) ) 

model.add (Dense (2, activation = 'softmax')) 


إذا كان تصنيفك متعدد التسميات «multi-label‏ فستحتاج إلى استخدام دالة التنشيط السيني 
sigmoid‏ بدلاً من دالة .softmax‏ 
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البيانات غير المرتبة 

بالنسبة للسيناريوهات التي يكون فيها الارتباط بين التسلسلات المتشابهة أكثر أهمية من قابلية التعرف 
الفريدة للتسلسلات, فإننا نميل إلى استخدام البيانات غير المرتبة .unordered data‏ وعادة ما يتم 
تمثيل هذهفي شكل متجهات تردد قليل النوكليوتيد -oligonucleotide frequency vectors‏ على 
سبيل المثال« تبدو الترددات المعيارية Pseudomonas J normalized frequencies‏ 
aeruginosa (CP007224.1)‏ و Lactobacillus fermentum (AP008937.1)‏ كما يلي. 


r — Pseudomonas aeruginosa 
— Lactobacillus fermentum 


Fraction 
e 
2 
[d 
ane 
| 


يمكننا أن نرى أنهم يتبعون أنماطًا مختلفة GLS‏ لاحظ أننا فقدنا الترتيب الفعلي لأدوات التشذيب 


5 ولكننا تركنا مع تمثيل لتحديد النوعين بشكل فريد. ومع ذلك. عند 3 = k‏ من المحتمل جد 
أن تصادمات بين الاصناف وثيقة الصلة. 


الآن بعد أن رأيت البيانات» يمكنك استخدام نموذج مشابه لما يلي للقيام بالتصنيف. 


model = Sequential )( 


megesisaddi(mense (AN, Activation = est Uk SAE (ANN) 

model.add (Dropout (0.2) ) 

model.add (Dense (20, activation = 'relu') ) 

model.add(Dropout(0.2)) 

model.add(Dense(2, activation = 'softmax')) 

model.compile(loss-'binary crossentropy', optimizer-'adam') 

لاحظ أن بعد الإدخال الخاص بك سيزداد بقدرات 4 عند اتخاذ قرار بشأن k-mers‏ أطول لهذا الغرض. 


علاوة على ذلك» سيستغرق حساب مثل هذه المتجهات الطويلة وقنًا طويلاً جدا. 

عدد قليل من الأدوات الموجودة 

الآن بعد أن رأيت كيف يمكن للمرء استخدام التسلسلات الجينية ذات الأطوال المتغيرةفي نموذج التعلم 
e‏ اسمحوا لي أن أعرض بعض الأدوات التي تفعل ذلك بالفعل. 
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.(PLOS . 2020 (تم النشر عام‎ PlasClass 


يستخدم الانحدار اللوجستي logistic regression‏ على متجهات 5 »» k-mer‏ لاكتشاف 
ما إذا كانت تنشأ من تسلسل بلازميد plasmid sequence‏ أو مقطع كروموسومي 
.chromosomal segment‏ هذه أداة قائمة على التصنيف الثنائی binary‏ 


.classification 


(Nucleic Acid Research « 2018 )م 55 « عام‎ PlasFlow 


s‏ هذه الأداة بتصنيف مستوى الشعبة phylum level classification‏ وتتوقع ما إذاكان 
كونتيج Gona contig‏ هو بلازميد أو كروموسوم. يستخدم شبكة عصبية فوق متجهات تردد 
.k-mer‏ 


(Bioinformatics « 2020 النشرء‎ e» MetaBCC-LR e 


يستخدم تضمين Stochastic Neighbor Embedding (t-SINE)‏ الموزع على شكل 
t‏ لتقليل القراءات الجينومية الطويلة لإجراء تجميع متجهات قاطعة للقراءات الميتاجينومية 


metagenomic reads’ trimer vectors 


هناك العديد من الأدواتني مجالات مختلفة من البحث بخلاف تلك القليلة )231( استخدمتها والثالثة 
التي قمت بتأليفها). تُستخدم 512/5.آفي التنبؤ الجيني وكشف منطقة الترميز region detection‏ 


المصدر: 


https://towardsdatascience.com/machine-learning-for-genomics- 


c02270251795 
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Explore المعلوماتية الحيوية باستخدام التعلم الآلي‎ Jle استكشاف‎ (5 
the world of Bioinformatics with Machine Learning 

تحتوي المقالة على مقدمة موجزة للمعلوماتية الحيوية Bioinformatics‏ وكيف يمكن استخدام 
خوارزمية تصنيف التعلم machine learning classification gl‏ لتصنيف نوع المت طانفي كل 
مريض من خلال تعبيراته الجينية gene expressions‏ 


المعلوماتية الحيوية Bioinformatics‏ هي مجال دراسة يستخدم الحساب لاستخراج المعرفة من 
البيانات البيولوجية biological data‏ وهو يشمل جمع البيانات وتخزينها واسترجاعها ومعالجتها 
ونمذجة البيانات لتحليلها أو تصورها أو التنبؤ بها من خلال تطوير الخوارزميات والبرامج. 


يمكننا اقتباسها بطريقة أبسط "تتعامل المعلوماتية الحيوية مع المناهج الحسابية والرياضية 
لفهم البيانات البيولوجية biological data‏ ومعالجتها". 


إنه مجال متعدد التخصصات يتم فيه تطوير طرق حسابية جديدة لتحليل البيانات البيولوجية وإجراء 
اكتشافات بيولوجية. على سبيل المثال» هناك مهمتان نموذجيتانفي ele‏ الوراثة genetics‏ وعلم الجينوم 
genomics‏ هما عمليات التسلسل sequencing‏ والتعليق التوضيحي annotating‏ لمجموعة كاملة 
من الحمض النووي DNA‏ للكائن الحي. في علوم الأعصاب «neurosciences‏ تستخدم تقنيات 
التصوير العصبي neuroimaging techniques‏ مثل التصوير المقطعي المحوسب 
computerized tomography (CT)‏ والتصوير المقطعي بالإصدار البوزيتروني positron‏ 
emission tomography (PET)‏ والتصوير بالرنين المغناطيسي الوظيفي functional‏ 
«magnetic resonance imaging (MRI)‏ والتصوير الموتر للانتشار diffusion tensor‏ 
imaging (DTI)‏ لدراسة الأدمغةني الجسم الحي وفهم الأعمال الداخلية من الجهاز العصبي. 


يفتح تطبيق التعلم Machine Learning AVI‏ على البيانات البيولوجية والتصوير العصبي 
GUT neuroimaging data‏ جديدة للهندسة الطبية الحيوية :biomedical engineering‏ تحسين 
فهمنا للأمراض المعقدة مثل السرطان أو الاضطرابات العصبية التنكسية والنفسية. يمكن أن يؤدي 
التقدمفي هذا المجالفي النهاية إلى تطوير أدوات التشخيص الآلي والطب الدقيقء والذي يتكون من 
استهداف العلاجات الطبية المخصصة مع مراعاة التباين الفردي ونمط الحياة والبيئة. 


قبل ظهور خوارزميات التعلم الآلي كان لابد من برمجة خوارزميات المعلوماتية الحيوية يدويًا بشكل 
صريح والتي ثبت أنها صعبة للغاية بالنسبة لمشاكل مثل التنبؤ ببنية البروتين protein structure.‏ 


.prediction 
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تمكن تقنيات التعلم الآلي مثل التعلم العميق deep learning‏ الخوارزمية من الاستفادة من التعلم 
التلقائى للميزات automatic feature learning‏ مما يعنى أنه sU‏ على مجموعة البيانات وحدهاء 
کی ial‏ أن ol cod adea cole qu i ult‏ متجبرعة ا e‏ مين 
الميزات التي يمكن من خلالها إجراء مزيد من التعلم. يسمح هذا النهج متعدد الطبقات لأنماط التعلم 
فى بيانات الإدخال لمثل هذه الأنظمة بعمل تنبؤات معقدة للغاية عند تدريبها على مجموعات البيانات 
الكبيرة.في السنوات الأخيرة ارتفع حجم وعدد مجموعات البيانات البيولوجية المتاحة بشكل cs‏ مما 
مكن باحثي المعلوماتية الحيوية من الاستفادة من خوارزميات التعلم JY‏ هذه. 

تم تطبيق التعلم الآلي على ست مجالات بيولوجية: علم الجينوم «Genomics‏ وعلم البروتينات 
«Proteomics‏ والمصفوفات الدقيقة Microarrays‏ وبيولوجيا الأنظمة «Systems biology‏ 
وتشخيص السكتات الدماغية Stroke diagnosis‏ والتنقيبفي النص -Text mining‏ 

علم الجينوم 

aj‏ مجال متعدد التخصصاتفي علم الأحياء يركز على هيكل structure‏ ووظيفة function‏ وتطور 
2 وتعيين mapping‏ وتحرير editing‏ الجينوم genomes‏ الجينوم هو مجموعة كاملة من 
الحمض النووي DNA‏ للكائن الحي» بماني ذلك جميع جيناته. هناك حاجة متزايدة لتطوير أنظمة 
التعلم al‏ التي يمكن أن تحدد GU‏ موقع الجينات المشفرة للبروتين protein-encoding genes‏ 
ضمن تسلسل DNA‏ معين وتعرف هذه المشكلةفي علم الأحياء الحسابي computational‏ 
biology‏ بالتنبؤ الجيني .gene prediction‏ لمعرفة المزيد عن علم الجينوم انقر هنا. 


What is a genome? 


Human cell 


Most cells in the human 
body have a complete 
set of genes 


Your genome is one whole set of all your 
genes plus all the DNA between your genes. 
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علم البروتينات 
علم البروتينات Proteomics‏ هو دراسة واسعة النطاق للبروتينات .proteomes‏ البروتين 


proteome‏ هو مجموعة من البروتينات يتم إنتاجهاني كائن حي أو نظام أو سياق بيولوجي. 


تكتسب البروتينات» وهي سلاسل من الأحماض الأمينية camino acids‏ الكثير من وظيفتها من طي 
البروتين protein folding‏ حيث تتوافق مع L3‏ ثلاثية الأبعاد. يتكون هذا الهيكل من عدد من طبقات 
dos « Jai‏ ذلك البنية الأساسية primary structure‏ (أي السلسلة المسطحة للأحماض الأمينية flat‏ 
«(string of amino acids‏ والبنية الثانوية secondary structure‏ (حلزونات alpha helices WÍ‏ 
وصفائح بيتا «(beta sheets‏ والبنية الثلاثية «tertiary structure‏ والهيكل الربعي quarternary‏ 


.Structure 


يعد التنبؤ بالبنية الثانوية للبروتين Protein secondary structure prediction‏ هو المحور الرئيسي 
لهذا الحقل الفرعي حيث يتم تحديد طيات البروتين 10101585 protein‏ الإضافية (البنى الثلاثية 
والرباعية £C, (tertiary and quaternary structures‏ على البنية الثانوية. يعد حل LI‏ الحقيقية 
also iae oa‏ و a Do b C)‏ يزه من i ges! Lesen, dali dl‏ 
e‏ البروتين عن طريق تحليل تسلسل الأحماض الأمينية مباشرة. قبل التعلم SY‏ كان الباحثون بحاجة 
إلى إجراء هذا التنبق يدويًا. 

تستخدم الحالة الحاليةفي التنبؤ بالهيكل الثانوي نظامًا يسمى DeepCINF‏ (الحقول العصبية التلافيفية 
العميقة (deep convolutional neural fields‏ الذي يعتمد على نموذج التعلم الالي للشيكات 
العصبية الاصطناعية لتحقيق دقة تقارب 784 عند تكليفه بتصنيف الأحماض الأمينية من تسلسل 
البروتين إلى واحدة من ثلاث فتات هيكلية (حلزون c helix‏ صفيحة sheet‏ أو ملف (coil‏ 


المصفوفات الدقيقة 

تستخدم المصفوفات الدقيقة Microarrays‏ وهي نوع من المعامل على رقاقة Jab-on-a-chip‏ 
لتجميع البيانات UE‏ حول كميات كبيرة من المواد البيولوجية. يمكن أن يساعد التعلم الآليني تحليل 
هذه البيانات» وقد تم تطبيقه لتحديد نمط التعبير expression pattern‏ والتصنيف «classification‏ 
وتحريض الشبكة الجينية genetic network induction‏ 


هذه التقنية مفيدة بشكل خاص لرصد تعبير الجينات داخل الجينوم» مما يساعدفي تشخيص أنواع 
مختلفة من السرطان Fey‏ على الجينات التي يتم التعبير عنها. تتمثل إحدى المشكلات الرئيسيةفي هذا 
المجالفي تحديد الجينات التي يتم التعبير عنها بناءً على البيانات التي تم جمعها. 
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Cancer Colis Normal Colls 
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Combine Targets 


Hybridize to 
Microarray 


يقدم التعلم الآلي حلاً محتملاً لهذه المشكلة حيث يمكن استخدام طرق تصنيف مختلفة لإجراء هذا 
التعريف. الطرق الأكثر شيوعًا هى شبكات وظائف الأساس الشعاعى radial basis function‏ 
networks‏ والتعلم العميق deep learning‏ وتصنيف بايزي Bayesian classification‏ وأشجار 


.random forest والغابات العشوائية‎ decision trees القرار‎ 


بيولوجيا الأنظمة 

يركز بيولوجيا الأنظمة Systems biology‏ على دراسة السلوكيات الناشئة من التفاعلات المعقدة 
للمكونات البيولوجية البسيطةفي النظام. يمكن أن تشتمل هذه المكونات على جزيئات DNA ,J‏ 
RNA;‏ والبروتينات proteins‏ والمستقلبات metabolites‏ 
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NEWINSIGHTS 
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NEW TECHNOLOGIES 
© Institute for DATA 

Systems Biology 
تم استخدام التعلم الآلي للمساعدةفي نمذجة هذه التفاعلات المعقدةفي الأنظمة البيولوجيةني مجالات‎ 
signal transduction. وشبكات نقل الإشارات‎ genetic networks مثل الشبكات الجينية‎ 
تعد النماذج الرسومية الاحتمالية‎ .metabolic pathways والمسارات الأيضية‎ 15 
وهي تقنية تعلم آلي لتحديد البنية بين المتغيرات المختلفة.‎ Probabilistic graphical models 
واحدة من أكثر الطرق شيوعًا لنمذجة الشبكات الجينية. بالإضافة إلى ذلك تم تطبيق التعلم الآلي على‎ 
transcription factor binding sites مشاكل بيولوجيا الأنظمة مثل تحديد مواقع ربط عامل النسخ‎ 
تم استخدام‎ . Markov chain optimization باستخدام تقنية تحرف باسم تحسين سلسلة ماركوف‎ 
وتقنيات التعلم الآلي التي تستند إلى عملية التطور‎ «Genetic algorithms الخوارزميات الجينية‎ 
الطبيعيةء لنمذجة الشبكاث الجينية والهياكل التنظيمية.‎ 


تشخيص السكتة الدماغية 

تستخدم طرق التعلم الآلي لتحليل بيانات التصوير العصبي للمساعدةفي تشخيص السكتة الدماغية. 
Ou‏ ما يتم استخدام أساليب الشبكة العصبية التلافيفية ثلاثية الأبعاد Three-dimensional‏ 
äl, Convolutional Neural Network (CNN)‏ المتجهات الداعمة ) Support Vector‏ 
.Machines (SVM)‏ 


التنقيب في النصوص 

ital coal‏ اترات البو ارسي dal‏ إلى il) aad‏ مدر المت من queis De‏ جيم 
المعلومات المتاحة ذات الصلة حول موضوع معين عبر جميع المصادر. تُعرف هذه المهمة باسم 
استخراج المعرفة .knowledge extraction‏ يعد هذا ضروريًا لجمع البيانات البيولوجية والتي يمكن 
بدورها إدخالهاني خوارزميات التعلم الآلي لتوليد معرفة بيولوجية جديدة. يمكن استخدام التعلم الآلي 
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لمهمة استخراج المعرفة هذه باستخدام تقنيات مثل معالجة اللغة الطبيعية Natural Language‏ 
Processing (NLP)‏ لاستخراج معلومات مفيدة من التقارير التى ينشئها الإنسانفيٍ قاعدة بيانات. 


uod t عله‎ Ces يك‎ ddr دؤائية‎ cabal عن‎ cdi ule هذه التقية‎ Gus us 
المعلومات المخزنةفي قواعد البيانات والمجلات البيولوجية. غالبًا لا تعكس التعليقات التوضيحية‎ 
في قواعد بيانات البروتين المجموعة الكاملة المعروفة للمعرفة‎ 411104264015 of proteins للبروتينات‎ 
لكل بروتين» لذلك يجب استخراج معلومات إضافية من الأدبيات الطبية الحيوية. تم تطبيق التعلم الآلي‎ 
وتحديد‎ «US, Jis لوظيفة الجينات‎ automatic annotation على التعليق التوضيحي التلقائي‎ 
للبروتين» وتحليل صفائف تعبير الحمض النووي‎ subcellular localization التوطين الخلوي‎ 
large-scale واسع‎ Ua وتحليل تفاعل البروتين على‎ analysis of DNA-expression arrays 

molecule interaction analysis وتحليل تفاعل الجزيء‎ «protein interaction analysis 


يتيح لنا الآن تنفيذ خوارزمية (SVM)‏ مجموعة بيانات المعلوماتية الحيوية ومعرفة كيفية عملها. 


التصنيف الجزيثي للسرطان عن طريق مراقبة التعبير الجيني باستخدام (SVM)‏ 
على الرغم من تحسن تصنيف السرطان خلال الثلاثين Ole‏ الماضيةء لم يكن هناك نهج عام لتحديد 
فتات السرطان الجديدة (اكتشاف (class discovery 4al‏ أو لتخصيص الأورام tumors‏ لفتات 
معروفة (التنبؤ بالفئة JG «(class prediction‏ مجموعة البيانات من دراسة إثبات المفهوم التي نُشرت 
في 1999 من قبل .Golub et al‏ لقد أظهر كيف يمكن تصنيف حالات السرطان الجديدة عن طريق 
مراقبة التعبير الجيني gene expression monitoring‏ (عبر مصفوفة الحمض النووي الدقيقة 
(DNA microarray‏ وبالتالي قدم نهجًا Úle‏ لتحديد فتات السرطان الجديدة وتخصيص الأورام 
cola)‏ معروفة. 


الهدف هو تصنيف المرضى الذين يعانون من سرطان الدم النخاعي الحاد acute myeloid‏ 
leukemia (AML)‏ وسرطان mu‏ الليمفاوي الحاد lymphoblastic leukemia (ALL)‏ 
باستخدام خوارزمية SVM‏ 


يمكن تنزيل مجموعة البيانات من .Kaggle‏ 
لنبدأ البرمجة: 
ابدأ بتحميل 3 مكتبات أساسية للبايثون: 


import pandas as pd 
import numpy as np 
SMOSOE E MAE DLS LTO 12ت لات يون‎ cus BEE 


5( استكشاف عالم المعلوماتية الحيوية باستخدام التعلم الآلي 


Deuce =‏ متسس 

Dd. Fea CSV. OIOINEOEMaA ENES da Ea Sel AL AML EC adim svi) 
HESE Data > 
pd.read csv("/.../bioinformatics/data set ALL AML independent.csv") 
labels = pd.read csv("/.../bioinformatics/actual.csv", index col = 
'patient')Train Data.head() 


Gene 
Gene Description Accession 1 cal 2 cali 3 call2 4 cak3 .. 29 cali3 30 cal34 3! cal35 32 cok36 33 cal37 
Number 
AFFX-BIOB-5 at 
0 {endogenous ATX وري‎ A وول‎ A -76 A135 A . 15 A -318 A 2 A -124 A -135 A 
control) 
AFFX-BloB-M at 
1 (endogenous AXO 15 A 3 A 4A9 A A4 Anoa A -192 A 49 A -79 A -186 A 
control) 0 
AFFX-BIoB-3 at : 
2 (endogenous ATXBio هي‎ A 4 A 3 A 285 AL. 2 A 45 A 49 A SN م‎ A 
control) J 
AFFX-BioC-5. at 
8 (endogenous. dier 88 A 283 A 30 A 12 A 193 A 312 A 230 P 330 A 337 A 
contro) 0 
AFFX-BioC-3 at 
4 (endogenous 43800 ووو‎ A 264 A 46 A dS اله‎ 51 A -139 A -367 A -188 A -407 A 
control) 


ESE Daea Read) 


Gene 
GeneDescrption Accession 39 cal 40 cali 42 امه‎ 47 cak3 .. 65 call29 66 cal30 63 cnk3! 64 cal32 62 cal33 
Number 
AFFX-BIoB-5 at 
0 (endogenous — ^FPXBIOB. هيد م 2 م 7ه م وري‎ An 2ه‎ A -58 A -161 A 48 A -176 A 
control 
AFFX-BioB-M_at 
1 {endogenous سوقت‎ -200 A -248 A -153 A -218 A . -198 A 2I A -215 A -531 A -2B4 A 
contro) 0 
AFFX-BioB-3. at ERR 
2 (endogenous Le EFA 41 A 262 A 7 ^ -163 A m -5 A 53 ^ 45 A -124 A eB A 
control) 
AFFX-BloC-5 at mu 
3 (endogenous WNBA ووو‎ A 295 A 276 A 182 A m 14 A 95 A M6 A 431 A 9 A 
control) 
AFPXBIOC-.At — jerk ioc 
4 {endogenous QC. 224 A 26 A 20 — A -289 A . -258 A -191 A -172 A -49 A-294 A 
control) T 


o‏ العمودان1 25 عبارة عن أوصاف حول هذا الجين. 

abel data كل عمود مرقم هو مريض في بيانات التسمية‎ ٠ 

e‏ لكل مريض 7129 قيمة تعبير جيني gene expression values‏ — أي لكل مريض قيمة 
واحدة لكل جين. 

.38 تحتوي بيانات التدريب على قيم التعبير الجيني للمرضى من 1 إلى‎ e 

.72 تحتوي بيانات الاختبار على قيم التعبير الجيني للمرضى من 39 إلى‎ ٠ 
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تحقق الآن من القيم الخاليةفي مجموعتي البيانات (ليس لدينا أي قيم خاليةفي مجموعات البيانات 
هذه). 


print(Train Data.isna().sum().max()) 
print(Test Data.isna().sum().max()) 


Cols = [eol zor col 10 Megre Dece Columns tr VeculiY Ane CoL 
Test = Mese Dara Coo leals, 1) 

cols Icel tor لوت‎ aug. Wel Deren EAlwins abt ey im Coll 
Erein = Ean Derce Crop (COls, 1) 


انضم الآن إلى جميع مجموعات البيانات وقم بتبديل البيانات النهائية المرتبطة. 


patientsi= iste EOF 3L an 22292 /)1 37 D 
GE ell = واهع هم مامه‎ (train, testli, axis = 11 pacients] 
كام‎ adil = (hs AML a 


Il 


0 1 2 3 4 5 6 7 8 9 .. 7119 7120 7121 7122 7123 7124 7125 7126 7127 7128 
1 -214 -153 -58 B8 -295 -558 199 -176 252 206 .. 185 511 -125 389 -37 793 329 36 191 -37 
2 -139 -73 -1 283 -264 -400 -330 -168 101 74 .. 169 837 -36 442 -17 782 295 11 76  -14 
3 76 -49 -307 309 -376 -650 33 -367 206 -215 315 1199 33 168 52 1138 777 41 228 -A 
4 -195 -114 265 12 -419 -585 158 -253 49 31 .. 240 835 218 174 -110 027 170 -50 126 -91 
5 -106 -125 -76 168 -290 -284 4.122 70 2852 . 156 649 57 504 -26 250 314 14 56 -25 


5 rows x 7129 columns 


بعد التحويل» تم تحويل الصفوف إلى أعمدة )7129 عمود / معلم) 


الآن قم بتحويل عمود المريض "patient!‏ إلى قيمة رقمية وإنشاء متغيرات وهمية dummy‏ 
variables‏ (تحويل الفئات categories‏ إلى e‏ رقمية (numeric values‏ نظرًا لأن "السرطان 
cancer‏ " هو عمود فتوي به (AML ALL) OUS‏ 


dE 2ت 2522 فك "| لظت‎ 20 => PIA. onune epar enes) 
l'aeisqmeasneenilEodsgeudummiesimcemallieamncermcihsop Siem eres ure) 


اربط الآن إطارات البيانات d£. all‏ والتسمياتفي عمود المريض. 


Deita > 540 02206 (dE ally, labels, 8 كت‎ 
Data.head() 


0 1 2 3 4 5 6 1 8 9 .. 7121 7122 7123 7124 7125 7125 7127 7128 patent cancer 


0 -214 -153 -58 BB -295 -558 199 -176 252 06 -125 389 -37 7% 329 35 191 -37 1 0 
1 -139 -73 -1 283 -264 -400 -330 -168 101 74 -36 442 -17 782 295 11 76 -14 2 0 
2 -76 -49 -307 309 -376 -650 33 -367 206 -215 ... 33 168 52 1138 777 41 228 1ل‎ 3 0 
3 -135 -114 265 12 -419 -585 158 -253 49 31 218 174 -110 627 170 -50 126 -9i 4 0 
4 -106 -125 -76 168 -230 -284 4 -122 70 252 .. 57 504 -26 250 314 14 56 -25 5 0 


خطوتنا التالية هي إنشاء متغيرين X‏ (مصفوفة المتغيرات المستقلة (independent variables‏ و y‏ 
(متجه المتغير التابع -(dependent variable‏ 


5( استكشاف عالم المعلوماتية الحيوية باستخدام التعلم الآلي 


X, y 7 Data.drop(columns-["cancer"]), Data["cancer"] 

بعد ذلك» قمنا بتقسيم 75/ من البيانات إلى مجموعة تدريب بينما يتم اختبار 725 من البيانات. 
المتغير test size‏ هو المكان الذي نحدد فيه بالفعل نسبة مجموعة الاختبار. 

from sklearn.model selection import train test split 


X لوطع‎ 3€ CSS, y Crain, y Cest = train des SONIC MCSE Suzie 
= 0:20; awon state= 0) 


الخطوة التالية هي تسوية normalize‏ البيانات لأننا إذا نظرنا عن كثب إلى البيانات» فإن نطاق قيم 

المتغيرات المستقلة يختلف كثيرًا. لذلك عندما تختلف القيم C31 8S‏ المتغيرات المستقلة» فإننا نستخد 

e z 7 DO يم‎ 2 d A 
بحيث تظل جميع القيمفي النطاق القابل للمقارنة.‎ feature scaling تحجيم الميزة‎ 

from sklearn.preprocessing import StandardScaler 

Sc X — StandardScaler() 


2X trein = SE EAE CLEANSE CEA) 
EEE = SE AO crano EOT O TEST) 


عدد الأعمدة / الميزات التي كنا نعمل معها ضخم. لدينا 72 Ġo‏ و 7129 عمودًا. نحتاج GU‏ إلى 
تقليل عدد الميزات (تقليل الابعاد (Dimentioanlity Reduction‏ لإزالة إمكانية لعنة الأبعاد 


. Curse of Dimensionality 


لتقليل عدد الأبعاد / الميزات» سنستخدم خوارزمية تقليل الأبعاد الأكثر شيوعاء مثل PCA‏ (تحليل 
المكون الرئيسي Principal Component Analysis‏ 


لإجراء PCA‏ يتعين Ue‏ اختيار عدد الميزات / الأبعاد التي نريدهافي بياناتنا. 


from sklearn.decomposition import PCA 
pca = PCA() 
X EERO poasit CEASE OE Treun) 
X test = pca.transform(X test) 
total-sum(pca.explained variance ) 
k-0 
current variance-0 
while current variance/total « 0.90: 
current variance = pca.explained variance [k] 


k=k+1 
.) = 38 يعطي الكود أعلاه‎ 


oM‏ دعونا نأخذ 38 = k‏ ونطبق PCA‏ على متغيراتنا المستقلة. 


from sklearn.decomposition import PCA 

Bea = PCA(n components = 38) 

X train = pca.fit transform(X train) 

X test —cpcastransform(X TeSt CUM SUM = 
pca.explained variance ratio .cumsum() 

cum sum — cum sum*100 

plt.bar(range(38), cum sum) 
plt.ylabel("Cumulative Explained Variance") 
plt.xlabel("Principal Components") 
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plt.title ("Around 90% of variance is explained by the First 8 
columns 2) 


Text(0.5, 1.0, ‘Around 908 of variance is explained by the First 38 columns ') 


Around 9096 of variance is explained by the First 38 columns 


& zi 8 


Cumulative Explained Variance 
5 


v 5 22 5 Ə 5 
Principal Components 


ملاحظة: يمكن أن يؤدي PCA‏ إلى انخفاضفي أداء النموذجني مجموعات البيانات مع عدم وجود 
correlation bU jl‏ بين الميزات أو انخفاضها أو عدم تلبية افتراضات الخطية linearity‏ 


تتمثل الخطوة JUJI‏ 34( ملاءمة بياناتنافي خوارزمية Support Vector Machine (SVM)‏ ولكن قبل 
القيام بذلك سنقوم بتحسين المعلمات الفائقة -Hyperparameter‏ 


تحسين أو ضبط المعلمات الفائقة Hyperparameter optimization or tuning‏ هي مشكلة 
اختيار مجموعة من المعلمات الفائقة المثلى لخوارزمية التعلم. المعلمة الفائقة هي معلمة تستخدم 
قيمتها للتحكمفي عملية التعلم. على النقيض من ذلكء يتم تعلم قيم المعلمات الأخرى. 

سنستخدم GridSearchCV‏ من sklearn‏ لاختيار أفضل المعلمات الفائقة. 


from sklearn.model selection import GridSearchCV 
from sklearn.svm import SVCparameters = [('C': [1, 10, 100, 1000], 
'kernel': ['linear']], 

NENE U, DO, TOO, OO ener PE qmd s 
O. OZ CY DMA DS, 06 O UC, O Stecen = 
GridSearcheCV(SVC(), parameters, n jobs--1, verbose-l) 
search.fit(X train, y train) 


تحقق الآن من أفضل المعلمات لخوارزمية SVM‏ الخاصة بنا. 


best parameters = search.best estimator 


SVC(C-1, cache size-200, class weight-None, coef0-0.0, 
decision function shape-'ovr', degree-3, gamma-'auto deprecated', 
kernel-'linear', max iter--1, probability-False, random state-None, 
shrinking-True, tol-0.001, verbose-False| 


الآن دعنا ندرب نموذج تصنيف SVM‏ الخاص بنا. 


medel = SVE (CS, Cache siz2e=200; elass vercht= one, EOC OO 


E‏ 5( استكشاف عالم المعلوماتية الحيوية باستخدام التعلم الآلي 


deci Sion 2022621 OM 2ه 2ك‎ OME 7 degEee= m 
gamma-'auto deprecated', 

erme lm lime masse Mero als relse, 
random state-None, 

shrinking-True, tol-0.001, verbose-False) 


model.fit(X train, y train) 
حان الوقت لبعض التوقعات:‎ 
y pred-model.predict(X test) 
تقييم أداء النموذج:‎ 


from sklearn.metrics import accuracy score, confusion matrixfrom 
Sklearn import metrics 15 

BEDE Acer 67ت‎ SCOTS 7 لت )م‎ 56222 vase Stt VY OTe 2)) 
#confusion matrix 

cm = confusion matrix(y test, y pred) 

Output: 

Aceuracy Scores O. 01 


مصفوفة الارتباك Confusion matrix‏ وتصورها باستخدام خريطة الحرارة .Heatmap‏ 


elas sl nemes= i23] 

fig, ax - plt.subplots()from sklearn.metrics import 
confusion matrix 

import seaborn as snscm = confusion matrix(y test, 
ycpred)ctassonames-[ ATE", VAME!] 

itae]. ex = Tobi suga lors) 

tick marks - np.arange(len(class names)) 


plt.xticks(tick marks, class names) 

plt.yticks(tick marks, class names) 

sns.heatmap(pd.DataFrame(cm), annot-True, cmap-"viridis" ,fmt-'g') 
ax.xaxis.set label position("top") 

plt.tight layout () 

DEE للع‎ 212 ue oniusaonmmats ic y=) 

plt.ylabel('Actual label') 

plt.xlabel('Predicted label') 


Confusion matrix 
Predicted label 


75 
o &0 
45 
3.0 
57 
15 
-0.0 
0 1 


Actual label 


التعلم العميق واستخداماته في المعلوماتية الحيوية 90 


حستاء يوضح هذا المثال أنه إذا توقعت للتو أن كل مريض مصاب بمرض (AML)‏ فستكون على 
صواب أكثر من الخطأ. 

لذلك توقع نموذج تصنيف SVM‏ مرضى السرطان بدقة 67 وهو بالطبع ليس جيدا. ما يمكنك القيام 
به هو تجربة مصنفات مختلفة مثل Random Forest‏ و K- NN‏ و Gradient Boosting‏ و 
xgboost‏ وما إلى ذلك ومقارنة الدقة لكل نموذج. 

الاستنتاج 

لذلكني هذه المقالةء رأينا كيف يمكن استخدام خوارزمية تصنيف التعلم الآلي للتنبؤ بالسرطان لدى 
المريض. 

في النهاية» أعتقد أن التعلم الآلي سوف يزدهر d‏ فسوف يتحول إلى بيانات معلوماتية حيوية أفضل. 
تتمتع بيانات الصحة والمعلوماتية الحيويةفي الوقت الحالي بقدرة إحصائية ضعيفة au‏ إما أنها عادة 
ما تكون col‏ إشارة ضعيفة (علم الجينوم)ء أو ضوضاء ©2015/ تحيز bias‏ مرتفعة(السجلات الصحية 
الإلكترونية)ء أو أحجام عينات صغيرة. 


المصدر 


https://www.kdnuggets.com/2019/09/explore-world-bioinformatics- 


machine-learning.html 
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6( تحليل جينوم فيروس كورونا COVID-19‏ باستخدام Biopython‏ 
Coronavirus COVID- 19 Genome Analysis using Biopython‏ 
لذلكني هذه المقالة» سوف نفسر ونحلل بيانات تسلسل الحمض النووي DNA‏ ل COVID-19‏ 
ونحاول الحصول على العديد من الأفكار المتعلقة بالبروتينات التي تتكون منها. سنقارن iN‏ الحمض 
النووي ل COVID-19‏ بمتلازمة الشرق الأوسط التنفسية MERS‏ والسارس SARS‏ وسنفهم 
العلاقة بينهما. 


R للضيعة العاية‎ imp اشجارات‎ (SARS-CoV-2) 2 E الق اتاد‎ da ja 
تحديدهفي أواخر ديسمير 2019 الصين.‎ e ol والاقتصاد منڏ‎ 


فيروسات كورونا Coronaviruses‏ هي عائلة كبيرة من الفيروسات التي يمكن أن تسبب أمراضًا تتراوح 
شدتها على نطاق واسع. ظهر أول مرض خطير معروف ناجم عن فيروس كورونا مع وباء المتلازمة 
التنفسية الحادة الوخيمة (سارس) Severe Acute Respiratory Syndrome (SARS)‏ عام 
32003( الصين. نشأت الفاشية الثانية للمرض الحادفي عام 32012 المملكة العربية السعودية مع 
متلازمة الشرق الأو سط التنفسية (ميرس) .Middle East Respiratory Syndrome (MERS)‏ 
والآن التفشي المستمر ل -COVID-19‏ 

"من خلال مقارنة بيانات تسلسل الجينوم المتاحة لسلالات فيروس كورونا المعروفة» يمكننا أن نقرر 
بحزم أن COVID-19‏ نشا من خلال العمليات الطبيعية". كما قال کریستیان أندرسنء دكتوراه. أستاذ 
مشاركفي علم المناعة وعلم الأحياء المجهريةني أبحاث Scripps‏ والمؤلف المقابلفي الورقة. 


لذلكني هذه المقالة سوف نفسر ونحلل بيانات تسلسل الحمض النووي DNA‏ ل 057110-19 © 
ونحاول الحصول على العديد من الأفكار المتعلقة بالبروتينات التي تتكون منها. سنقارن M‏ الحمض 
النووي ل COVID-19‏ بمتلازمة الشرق الأوسط التنفسية MERS‏ والسارس SARS‏ وسنفهم 
العلاقة بينهما. 

إذا كنت جديداني علم الجينوم» فإنني أوصيك بضرورة مراجعة المقالة إزالة الغموض عن تسلسل 
الحمض النووي باستخدام التعلم الآلي و Python‏ قبل المضي قدمًا للحصول على فهم أساسي لتحليل 
بيانات الحمض النووي. 
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صور بالمجهر الإلكتروني لسلالة فيروس كورونا القاتلة 


فيروسات كورونا هي أعضاءفي عائلة من الفيروسات المغلفة التي تتكاثرفي سيتوبلازم الخلايا المضيفة 
الحيوانية. يتم تحديدها من خلال وجود جينوم الحمض النووي الريبي أحادي الجديلة single-‏ 
sSRINAC)) stranded plus-sense RNA genome‏ تصنيف للفيروسات) يبلغ طوله حوالي 
0 كيلو بايت وله هيكل 5 غطاء و 3 مسار متعدد الأدينيل. (أكبر فيروس معروف). 


الآن دعونا نتعامل مع بيانات تسلسل الحمض النووي COVID2—19‏ باستخدام Python‏ 


d‏ سيساعدك تثبيت حزم Python‏ مثل squiggles Biopython‏ عند التعامل مع بيانات التسلسل 
البيولوجي -Python (biological sequence data‏ 


pip install biopython 
pip install Squiggle 


قم بتحميل المكتبات الأساسية: 


import numpy as np 

import pandas as pd 
pd.plotting.register matplotlib converters () 
import matplotlib.pyplot as plt 

$matplotlib inline 

import seaborn as sns 

import os 


يمكن تنزيل مجموعة البيانات من Kaggle‏ 
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سنستخدم Bio.SeglO‏ من Biopython‏ لتحليل بيانات تسلسل الحمض النووي (fasta)‏ يوفر 
واجهة موحدة بسيطة لإدخال وإخراج تنسيقات ملفات تسلسلية متنوعة. 


from Bio import SeqgIOfor sequence in 
SeqlIO.parse('/coronavirus/MN908947.fna', "fasta"): 
print(sequence.seq) 

print (len (sequence), 'nucliotides') 


-length of the sequence وطول المتسلسلة‎ sequence لذلك ينتج التسلسل‎ 


GCAATGGATACAACTAGCTACAGAGAAGCTGCTTGTTGTCATCTCGCAAAGGCTCTCAATGACTTCA 
GTAACTCAGGTTCTGATGTTCTTTACCAACCACCACAAACCTCTATCACCTCAGCTGTTTTGCAGAG 
TGGTTTTAGAAAAATGGCATTCCCATC...... AGAATGACAAAAAAAAAAAAAAAAAAAAAAAAAA 
AAAAAAA29903 nucliotides 


تحميل تسلسل الحمض النووي التكميلي d Complementary DNA Sequence‏ ملف قابل 
للتراصف .alignable file‏ 


from Bio.SeqRecord import SeqRecord 
from Bio import seglo 
DNAsequence = SeqIO.read('/coronavirus/MN908947.fna', "fasta") 


SeqIO.read()‏ سوف ينتج المعلومات الأساسية المتعلقة بالتسلسل. 


SegRecord(seq-Seq('ATTAAAGGTTTATACCTTCCCAGGTAACAAACCAACCAACTTTCGATC 
TCTTGT...AAA', SingleLetterAlphabet()), id-'MN908947.3', 
name-'MN908947.3', description-'MN908947.3 Severe acute respiratory 
syndrome coronavirus 2 isolate Wuhan-Hu-1, complete genome', 
dbxrefs-[]l) 


CYTOSINE 
7 —^ NUCLEOBASES i 
Q 9 
١ o x o 
BASE PAI [ GUANINE [8] 
x Met 0 NH 
5 PEN — ÁNH 
(Vs) " 
[ ADENINE fI [ADENINE Ji] 
HN HN 
1 
i — HELIX OF — 
SUGAR-PHOSPHATES 
URACIL J] 
Si RNA DNA 
o RIBONUCLEIC AOD DEOXYRIBONUCLEIC ACID 


s‏ لأن تسلسل الإدخال هو FASTA (DNA)‏ . و Coronavirus‏ هو نوع من الفيروسات من نوع 
RNA‏ فحن بحاجة ual‏ 
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RNA (ATTAAAGGTT. => إلى‎ DNA (Transcribe) نسخ‎ ه٠‎ 
AUUAAAGGUU...) 

AUUAAAGGUU... ) إلى تسلسل الأحماض الأمينية‎ RNA (Translate) ترجمة‎ ٠ 
(... => IKGLYLPR * Q 


في السيناريو الحالي؛ Lu‏ ملف fna‏ ب ATTAAAGGTT‏ » ثم سمي transcribeO‏ لذلك يتم 
استيدال T‏ (الثايمين (thymine‏ ب U‏ (يوراسيل (uracil‏ لذلك نحصل على تسلسل RNA‏ الذي 
يبدأ ب .AUUAAAGGUU‏ 


DNA = DNAsequence.seq#Convert DNA into mRNA Sequence 


mRNA = DNA.transcribe() 4Transcribe a DNA sequence into RNA. 
print (mRNA) 
print('Size : ',len(mRNA)) 


سيحول transcribe()‏ الحمض النووي DNA‏ إلى RNA‏ 


UAUUUUAGUGGAGCAAUGGAUACAACUAGCUACAGAGAAGCUGCUUGUUGUCAUCUCGCAAAGGCUC 
UCAAUGACUUCAGUAACUCAGGUUC...UAAUAGCUUCUUAGGAGAAUGACAAAAAAAAAAAAAAAA 
AAAAAAAAAAAAAAAAA 

atv : 25 


الفرق بين DNA‏ و mRNA‏ هو أن القواعد T‏ (للثايمين) يتم استبدالها ب U‏ (لليوراسيل). 


بعد ذلك نحتاج إلى ترجمة تسلسل mRNA‏ إلى تسلسل الأحماض الأمينية amino-acid‏ 

sequence‏ باستخدام طريقة translateO‏ . نحصل على شيء مثل IKGLYLPR * Q‏ (يسمى 
كودون الايقاف (STOP codon)‏ وهو فعال كفاصل للبروتينات). 

Amino Acid = mRNA.translate(table-1, cds-False) 

prunuAminoeAcud Amino Acid) 


1 
princ (engl Of Procena lenAmino Acra) 
print("Length of Original mRNA:",len (mRNA)) 


في الناتج أدناه. يتم فصل الأحماض الأمينية بعلامة *. 


" 
" 


Amino Acid : 
IKGLYLPR*QTNOLSISCRSVL*TNFKICVAVTRLHA*CTHAV*LITNYCR*QDTSNSSIFCRLLTV 
SSVLOPIISTSRFRPGVTER*DGEPCPWFORENTRPTOFACFTGSRRARTWLWRLRGGGLIRGTSTS 
*RWHLWLSRS*KRRFAST*TALCVHQTFGCSNCTSWSCYG...*SHIAIFNOCVTLGRT*KSHHIFT 
EATRSTIECTVNNARESCLYGRALMCKINFSSAIPM*F**LLRRMTKKKKKKKKKKLength of 
Br Olen : OS 
Length of Original mRNA : 29903 


في السيناريو الخاص بناء يبدو التسلسل كما يلي: * IKGLYLPR * QTNQLSISCRSVL‏ 
TNFKICVAVTRLHA‏ حيث: 


يقوم IKGLYLPR‏ بترميز البروتين الأول (كل حرف يشفر حمض qu‏ واحد) يشفر 
51501457171 البروتين الثاني وهكذا. 
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لاحظ أن هناك تسلسلات أقلفي البروتين من MRNA‏ وذلك لأن 3 mRNA‏ تُستخدم لإنتاج وحدة 
فرعية واحدة من البروتين» تُعرف باسم الأحماض الأمينية camino acid‏ باستخدام جدول الكودون 
codon table‏ الموضح أدناه. * تُستخدم للإشارة إلى كودون الإيقاف»في هذه المناطق يكون البروتين 
قد أنهى كامل طوله. كثير من هذه تحدث بشكل متكرر وتؤدي إلى أطوال قصيرة من البروتين» وعلى 
الأرجح أنها تلعب دورًا بيولوجيًا بسيطًا وسيتم استبعادهافي مزيد من التحليلات. 

fDNA codon وكودون الحمض النووي‎ Genetic code فهمت أولاً ما هي الشفرة الجينية‎ e 


الشفرة الجينية هو مجموعة القواعد التي تستخدمها الخلايا الحية لترجمة المعلومات المشفرة داخل 
المادة الجينية (تسلسل الحمض النووي أو الرنا المرسال mRNA‏ من النوكليوتيدات الثلاثية 
anucleotide triplets‏ أو الكودونات (codons‏ إلى بروتينات. 
يتم تمثيل الشفرة الجينية القياسية GALE‏ كجدول كودون RNA‏ لأنه عندما تصنع البروتيناتفي خلية 
بواسطة الريبوسومات ribosomes‏ فإن mRNA‏ هو الذي يوجه عملية تخليق البروتين. يتم تحديد 
تسلسل MRNA‏ بواسطة تسلسل الحمض النووي الجينى genomic DNA‏ فیما يلى بعض ميزات 
الكودونات: l l‏ 

تحدد معظم الكودونات حمضًا .amino acid El‏ 

تشير ثلاثة أكواد "توقف stop‏ " إلى نهاية البروتين. 

يمثل كودون "البداية AUG c" start‏ بداية البروتين ويرمز CA‏ إلى الحمض الأميني 

.amino acid methionine ميثيونين‎ 


] 


Codon 1 


JL 


Codon 2 


| 


Codon 3 


1 


Codon 4 


E 


Codon 5 


| 
ا 


Codon 6 


IL 


Codon 7 


O»cOO»oooccoo»ooo»coo 


Ribonucleic acid 
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سلسلة من الكودوناتفيٍ جزء من جزيء (mRNA)‏ يتكو نكل كودون من ثلاثة نيوكليوتيدات» تتوافق 
عادة مع حمض أميني واحد. يتم اختصار النيوكليوتيدات بالأحرف A‏ و U‏ و © و0. وهذا هو 
mRNA‏ الذي يستخدم [](يوراسيل) يستخدم الحمض النووي 1 (الثايمين) بدلاً من ذلك. سيرشد 
جزيء mRNA‏ هذا الريبوسوم لتخليق بروتين Gi s‏ لهذه الشفرة. 


from Bio.Data import 00046021321 
print(CodonTable.unambiguous rna by name['Standard']) 


Table 1 Standard, SGCO 


جدول كودون RNA‏ 


دعنا الآن نحدد جميع البروتينات (سلاسل الأحماض الأمينية «(chains of amino acids‏ ونفصل 

أساسًا عند كود الإيقاف» المميز بعلامة *. ثم دعونا نزيل أى ت أقل من 20 o Cal Cas‏ هذا 
A 2s‏ دم دعونا دريل اي من is‏ 

هو أصغر بروتين وظيفي معروف. 


fIdentify all the Proteins (chains of amino acids) 

Proteine = Auno Heidi goli (YSU) y = ie EEDA SEO COIN 

df = pd.DataFrame (Proteins) 

df.describe( 

print('Total proteins:', len(df))def conv (item): 
ed uunesten«stem)rersateog SEL (Slate ms 


reruma str (abiere) relie || Seeuenee SEE | = EEO enoli (Celo) SEE) 
df['length'] = df[0].apply (conv) 
df.rename(columns-[(0: "sequence"), inplace-True) 


df.head()4 Take only longer than 20 

E URE E ONAN procena = QE oe OE [rU lengka] == 20] 

prine ) Total EuUneeional CEOleIMS? 7 diesmal rapuere EI ONAN PEOEE TDS) ( 
functional proteins.describe() 
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sequence sequence str length 


v TÉ e QDTSNSSIFCRLLTVSSVLOPIISTSRFRPGVTER 35 
P, C, P, M, F, Q, 


ENT. R P DGEPCPWFQRENTRPTQFACFTGSRRARTWLWRLRGGGLIRGTSTS 46 


C, F, 


H, TALCVHQTFGCSNCTSWSCYG 21 
' 
C, 


Q, 
P 


V, T 
, C, 
VU a S, C DTWCPCPSCGRNTSGLPQGSSS 22 


W, G, M, S, K, F, 


Tue d A HLQWGMSKFCISLKFHNQDYSTKG 24 


تحليل البروتين باستخدام الوحدة النمطية Biopython (Protparam‏ باستخدام .ProtParam‏ 
الأدوات المتاحةفي :ProtParam‏ 


:count amino acids e‏ ما عليك سوى حساب عدد المرات التي يتكرر فيها 
الحمض الأمينيفي تسلسل البروتين. 

:get amino acids percent e‏ نفس طريقة إرجاع الرقم بالنسبة المئوية 
للتسلسل بأكمله. 

molecular_weight œ‏ لحساب الوزن الجزيئي للبروتين. 

city e‏ iاomaاه:‏ تحسب القيمة العطرية للبروتين. 


ias: flexibility e‏ طريقة المرونة. 

IsoelectricPoint تستخدم هذه الطريقة الوحدة النمطية‎ :isoelectric point œ 
للبروتين.‎ pl لحساب‎ 

:Secondary structure fraction e‏ ترجع هذه الطريقة قائمة بكسر 
الأحماض الأمينية التي تميل إلى أن تكونفي الحلزون helix‏ أو الدوران turn‏ أو à; JI‏ 
„sheet‏ 

LOW «F (Y 1 «V :Amino acids in Helix الأحماض الأمينيةفي الحلزون‎ e 

.S«G 22 «N : Amino acids in Turn الأحماض الأمينيةفي الدور‎ ٠. 

.L«A «M «E :Amino acids in Sheet الأحماض الأمينيةفي الورقة‎ o 


تحتوي القائمة على 3 قيم: | [Sheet Turn Helix‏ 


from X future X import division 

por ligt = [D 

from Bio.SeqUtils import ProtParam 

for record in Proteins[:]: 
Tox MN) 
X = ProtParam.ProteinAnalysis (str (record) ) 
POI > X.count amino acids () 


co 
[o9] 
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poi list.append(POI) 
MW > X.molecular weight() 
MW list.append (MW) 
print("Protein of Interest — ", POI) 
print("Amino acids percent 
Deti Xegetsaminomacadsspercenti()D 
perme Mole Sul as welamê > MWSt) 
DEINE (LAEOMA ELECLEY xe 32 91ت‎ 2167 )(( 
print("Flexibility - ", X.flexibility()) 
BERE TSEC leCEATE Dorne = wo SSsatsexellexenreahie" ponme) 
print("Secondary structure fraction = ", 
X.secondary structure fraction()) 


1 


Protein of Interest = {'A': 0, : ©; ! J 1 Hs: 8, LO, '"K' 
1; ا‎ E لوت‎ ^CM's Ws ااا‎ 1 3 1 : 1 : 8, 'w': 0. Yt: 1) 
Amino acids percent = {'A': 0.0, : 09. - - : 0.0, 'G': 0.125, 'H': ©. 
0, 'I': 0.125, 'K': 0.125, ? i t 'P': 80.125, : 0.0, 'R': 0.125, 

'S': 90,0, 'T': 0:8, 'V': 0.8, 1 
Molecular weight = 959.1858 
Aromaticity = 5 
Flexibility = [] 
Isoelectric point = 9.99432373046875 
Secondary structure fraction = (0.5, 0.25, 0.25) 


Protein of Interest LATO CCS 1, 'D'r 8; ETO, EA "6*5 B, HE 8; "IS: 3; 

8; 'L'r-2; "Wu €; 'N': d; (ONO 0 2 و‎ REL SE 3; 1l, 'wrd, WEQ '"Y': 

Amino acids percent = {'A': 0.0, 'C': 0.07692307692307693, 'D': 0.0, 'E': 0.0, 'F': 0.0, - 
0.0, 'H': 0.0, 'I': 0.07692307692307693, 'K': 0.0, 'L': 0.15384615384615385, 'M': 0.0, 'N': 0. 
07692307692307693, 'P': 0.0, 'Q': 0.15384615384615385, 'R': 0.07692307692307693, 'S': 0.230769 
23076923078, 'T': 0.07692307692307693, 'V': 0.07692307692307693, 'W': 0.0, 'Y': 0.0) 
Molecular weight = 1448.6445 

Aromaticity = 0.0 

Flexibility = [1.0195, 0.9710238095238095, 1.0122976190476192, 0.9595714285714285] 
Isoelectric point = 8.24969482421875 

Secondary structure fraction = (0.3076923076923077, 0.3076923076923077, 8.15384615384615385) 


ارسم النتائج: 


MON = pd.DataFrame(data = MW list,columns = ["Molecular Weights"] 
)*plot POI 

DO MSE > SO keee] 

plt.figure(figsize-(10,6)); 

ple aE PON desine keys (0) ESE (xot list- velves (O) deban cente) 


200 


100 


50 
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يبدو أن عدد Lysines (L)‏ و Valines (V)‏ مرتفعفي هذا البروتين مما يشير إلى عددكبير من حلزونات 
الفا -Alpha-Helices‏ 


a-helix 


The telephone cord shape 
of the a-helix is held in 
place by Hydrogen bonds 
between every N-H group 
and the oxygen of a C-O 
group in the next turn of the 
helix, four amino acids 
down the chain. The 
typical o-helix is about 11 
amino acids long. 


الآن دعونا نقارن التشابه بين COVID-19 / COV2‏ و MERS‏ و .SARS‏ 


قم بتحميل ملف تسلسل الحمض النووي (FASTA)‏ لكل من السارس وفيروس كورونا وفيروس 
Ias‏ 


#Comparing Human Coronavirus RNA 

from Bio import pairwise2SARS = 
SeqlIO.read("/coronavirus/sars.fasta", "fasta")MERS 
SeqlIO.read("/coronavirus/mers.fasta", "fasta")COV2 
SeqlIO.read("/coronavirus/cov2.fasta", "fasta") 


MERS: 30119 .COV2: 29903 «SARS: 29751 أطوال التسلسل:‎ # 


قبل مقارنة التشابه» دعونا نتخيل الحمض النووي لكل من COV2‏ و SARS‏ و MERS‏ على التوالي. 


dExecute on terminal 
Squiggle cov2.fasta sars.fasta mers.fasta --method-gates --separat 


Wog 


E 1 ۰ 7 a 
F 1 | "d s — x 
rJ n 7 P 
t AES 2-77 FT فد‎ 
é | < s 
— کاک‎ | i NH d 
enn b. i جعي‎ f A 


تصور الحمض النووي لكل من COV2‏ و SARS‏ و MERS‏ على التوالي. 
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كما يمكننا أن نلاحظ أن بُنية الحمض النووي ل COV2‏ و SARS‏ متطابقة تقريبّاءفي حين أن بنية 
MERS‏ مختلفة قليلاً عن الاثنين. 


الآن دعونا نستخدم تقنية تراصف تسلسلي Sequence alignment‏ لمقارنة التشابه بين جميع 
تسلسلات الحمض النووي. 


تراصف تسلسلي هي عملية ترتيب تسلسلين أو أكثر (تسلسل DNA‏ أو RNA‏ أو بروتين) بترتيب 
معين لتحديد منطقة التشابه بينهما. 


يتيح لنا تحديد المنطقة المتشابهة استنتاج الكثير من المعلومات مثل السمات المحفوظة بين الأنواع» 
ومدى قرب الأنواع المختلفة من الناحية الجينية» وكيف تتطور الأنواع» وما إلى ذلك. 


تقارن التراصف التسلسلي الزوجي , Pairwise sequence alignment‏ تسلسلين فقطفي كل مرة وتوفر 
أفضل محاذاة تسلسل ممكنة. من السهل فهم الأزواج واستنتاجها بشكل استثنائي من محاذاة التسلسل 


الناتجة. 


يوفر Biopython‏ وحدة نمطية خاصةء Bio.pairwise2‏ لتحديد تسلسل المحاذاة باستخدام طريقة 
الزوج. يطبق Biopython‏ أفضل خوارزمية للعثور على التساسل المتراصف وهو مكافئ للبرامج 
الأخرى. 


# Alignments using 53121562 alghoritmSARS COV = 
pairwise2.align.globalxx(SARS.seq, COV2.seq, 

one alignment only-True, score only-True)print('SARS/COV Similarity 
($):', SARS COV / len(SARS.seq) * 100)MERS COV - 
pairwise2.align.globalxx (MERS.seq, COV2.seq, 

one alignment only-True, score only-True)print('MERS/COV Similarity 
($):', MERS COV / len(MERS.seq) * 100)MERS SARS - 
pairwise2.align.globalxx(MERS.seq, SARS.seq, 

one alignment only-True, score only-True)print ('MERS/SARS 
Similarity ($):', MERS SARS / len(SARS.seq) * 100) 


SARS/COV Similarity (%): 99 
MERS/COV Similarity (5): 69.39141405757164 
MERS/SARS Similarity (5): 69.93714496991697 


مقارنة النتائج 


كشف التحليل الوراثي Phylogenetic analysis‏ للجينوم الفيروسي الكامل )29903 نيوكليوتيدات) 
أن فيروس 0057112-19 كان أكثر ارتباطًا (83.3 / تشابه نيوكليوتيد) بمجموعة من فيروسات كورونا 
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الشبيهة بالسارس (subgenus Sarbecovirus .Betacoronavirus |j)‏ التي سبق العثور عليها 
في الخفافيشفي الصين. 


ارسم النتائج: 


# Plot the data 

DUE MENS ATUS IG VIP TEMERS CONA PESUMBEBS//STESIUNI 

Y = [SARS_COV/ len(SARS.seq) * 100, MERS COV/ len(MERS.seq)*100, 
MERS SARS/len(SARS.seq)*100] 

plt.title('Sequence identity )5('( 

PIE Bar (xX, A) 


E 


Sequence identity (%) 


S5 د‎ 8 5 8 3 8 


H 
o 


SARS/COV2 MERS/COV2 MERS/SARS 


يمكنك الحصول على الكود -GitHub repo (ts‏ 


الاستنتاج 

لذلك رأينا كيف يمكننا تفسير وتحليل بيانات تسلسل الحمض النووي ل .COVID-19‏ وحاولنا 
الحصول على العديد من الأفكار فيما يتعلق بالبروتينات التي تتكون منها.في النتيجة التي توصلنا إليهاء 
حصلنا على عدد من Valines (V) Leucine (L)‏ مرتفعافي هذا البروتين مما يشير إلى وجود عدد 
كبير من .Alpha-Helices‏ 


في وقت لاحق قمنا بمقارنة الحمض النووي ل 0017110-19 مع MERS‏ و SARS‏ . ورأينا أن 
COVID-19‏ وثيق الصلة بالسارس .SARS‏ 


المصدر: 


https://www.kdnuggets.com/2020/04/coronavirus-covid-19-genome- 


analysis-biopython. html 
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7( المعالجة المسبقة لتسلسل DNA‏ المتقدم لشبكات التعلم العميق 
Advanced DNA Sequences Preprocessing for Deep Learning‏ 
Networks‏ 

تم تطبيق بنيات التعلم العميق E Deep-learning‏ | الشبكات العصبية العميقة Deep Neural‏ 
Networks‏ وشبكات الاعتقاد العميقة Deep Belief Networks‏ والتعلم المعزز العميق Deep‏ 
Reinforcement Learning‏ والشبكات العصبية المتكررة Recurrent Neural Networks‏ 
والشبكات العصبية التلافيفية Convolutional Neural Networks‏ والمحولات Transformers‏ 
في مجالات تشمل رؤية الكمبيوتر Computer Vision‏ والتعرف على الكلام Speech‏ 
izle Recognition‏ اللغة الطبيعية Natural Language Processing‏ والترجمة الالية 
Machine Translation‏ والمعلوماتية الحيوية Bioinformatics‏ تصميم «Drug Design à PS‏ 
وتحليل الصور الطبية Medical Image Analysis‏ . وعلوم المناخ Climate Science‏ وفحص المواد 
«Material Inspection‏ وبرامج ألعاب الطاولة Board Game programs‏ حيث أسفرت عن نتائج 
مماثلة وفي بعض الحالات تفوق أداء الخبراء البشريين. 


أظهر التعلم الآلي Machine Learning (ML)‏ نتائج واعدة جد لتحليل تسلسل الحمض النووي 
àDNA‏ الطب السريري clinical medicine‏ لقد ثبت أنه يحل مهام محددة لعلم الجينوم السريري 
«clinical genomics‏ والاستدعاء المتغير «variant calling‏ والتعيين من النمط الظاهري إلى النمط 
الظاهري «phenotype-to-phenotype mapping‏ وتعليقات الجينوم «genome annotation‏ 
والتصنيف المتغير «variant classification‏ إلخ. 


في كثير من الحالاتء عندما نطبق التعلم الآلي لمجموعات بيانات تسلسل الحمض النووي DNA‏ 
sequence datasets‏ قد تظهر المشكلات التالية: 


No enough training and validation لايوجد تدريب كاف وبيانات التحقق من الصحة‎ ٠ 
.data 

.Data cleaning and encoding requirements متطلبات تنظيف البيانات وترميزها‎ o 

ه تسمية بيانات الفئات غير المتوازنة .Label imbalanced classes data‏ 
يمكن إصلاح هذه المشكلات عن طريق توليد بيانات تسلسل الحمض النووي التركيبي synthetic‏ 
-DNA sequence data‏ تقترح هذه الورقة عملية خط أنابيب بيانات Extract- Transform-Load‏ 
(ETL)‏ لحل المشكلات المذكورة أعلاه. وهي تطبق تنظيف سلسلة تسلسل الحمض النووي والتحقق 
من صحتهاء وترميز التسميات label encoding‏ وخوارزمية .SMOTE‏ 
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مراجعة الترميز واحد ساخن لتسلسل , DNA‏ 

بالنسبة لشبكات التعلم العميق Deep Learning Networks (DLN)‏ يجب أن يكون ترميز تسلسل 
الحمض النووي المطلوب هو مشفر واحد ساخن encoder‏ 026-106 كما هو موضحنفي تطبيق 
خوارزميات التعلم الآلي لورقة تصنيف بيانات الجينوم. دعونا نحاول مراجعة وتحليل مشفر واحد ساخن 
لتسلسل الحمض النووي الذي يحتوي على أربعة نيوكليوتيدات رئيسية ۸ و0 و G‏ و -T‏ وسيتم استخدام 
دالة .dna sequence one hot encoder()‏ تم تطوير هذه الدالة باستخدام كائن فة 


.scikit- Learning من‎ OneHotEncoder O 


dna sequence - "ACGT" 
dna onehot encoder - PyDNA.dna sequence one hot encoder(dna sequence) 


النتائج: 


DNA sequence string: 
ACGT 


DNA sequence list: 
NEU. XWoUy Wes Vae 
DNA sequence label encoder: 
0 3L S 
DNA sequence label encoder reshape: 
[ig 3b 2 1 
DNA sequence one-hot encoder: 
[EE CC 0 O 
Oa مك‎ Oa a 
05 O 1 el 
Oa Or. (Os. dis] 
DNA sequence one-hot encoder shape: 
(eip A) 
Number of rows: 
4 
Number of columns: 
4 


كما ترى ob‏ عدد الصفوف يمثل حجم (طول (length‏ تسلسل الحمض النووي وعدد الأعمدة التي 
تحدد عدد النيوكليوتيدات الأساسية الفريدة. يجب أن يكون عدد الأعمدة أربعة. هذا مطلب لتطوير نماذج 


دعونا نجرب تسلسل الحمض النووي بحجم 20 نيوكليوتيد قاعدي. 


dna sequence = "ATGATCGCATAGATGACTAG" 
dna onehot encoder - PyDNA.dna sequence one hot encoder(dna sequence) 


النتائج: 
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DNA sequence string: 


AJ 


l'GATCGCATAGATGACTAG 


DNA sequence list: 


' mq 


AU 


pi 


A, Pup E A upar 5 EG, KE TAUT uT UAU "el, AW 


MEE, 
GF, tgp UA SL E | 


DNA sequence label encoder: 
|o S Z2 0 TLE i10 e 2tilsc) 
DNA sequence label encoder reshap 


[ 


0 


$9 20 $1 21 $020 $92 1 $9 Z] 


DNA sequence one-hot encoder: 


[ 


IR 


0. 


(Gy (ex (em تاي‎ em) 


i € (€» €» Orr (€ (» [EA C» (3 (o C» je انك ات‎ €» f 4€» حت‎ 


OOO (em [I OO (eo) (92) ىن‎ (EX. (82) (eX [— (69 حت .82( 83( 69( تت حر‎ 
(ex 2 [r2 e») em Xem JM xem Teo em [L2 (e) Xe» O ux [2v (ey Û a [2 Gm») 


] 


DNA sequence one-hot encoder shap 


(20, 


4) 


Number of rows: 


20 


Number of columns: 


4 


نحصل على 20 o‏ و 4 أعمدة كما ينبغي. 


في تسلسل الحمض النووي أدناه. يكون نوكليوتيد القاعدة G‏ مفقودًا. 


DNA sequence list: 
] V DUE. ho. FRAU Ven as nor 5o YAT MTM HESS M XR. 


upo 
VAIT 


"QU 
Uu Nune TAU “ewi 


DNA sequence label encoder: 
O 2 3. 0) 2 Jb 3L 3L (9 2 4) 10 2 3. O 3X 2 O TI 


DNA 


MEC 


Sequence label encoder reshape: 
à 4 g 2173 120l£24uljuczsls£-sioSZ^3g 
Sequence one-hot encoder: 
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Ofa (9 dio 

Bs. E Quo 

(s 3.5 (5 

Qa dis Oa 

1 EN 

B Qa d. 

ds. 0 (9 

Qs d 5 Q5 

& Us E 

05. 9 15 

Qs 15 9. 

dba. (Qu. (Qi. 

Qs. TE (95 

Q. Q X. 

is. (Qus. (o 

0. 15 0.1] 
DNA sequence one-hot encoder shape: 
(20, 33) 
Number of rows: 
20 


Number of columns: 


ETERS 
DLN الصف المحدد هذا مع ترميز واحد ساخن لخوارزميات التعلم الالي. على وجه التحديد. بالنسبة ل‎ 
يجب توجيه البيانات لأداء عمليات المصفوفة المطلوبة بكفاءة. هذا يعني أن عدد الصفوف والأعمدة لكل‎ 
يجب أن يكون هو نفسه لمجموعة البيانات بأكملها. على سبيل المثال: إذا كان عدد‎ DNA تسلسل‎ 
الأعمدة مختلفاء فسيتم فقد نيوكليوتيد قاعدة الحمض النووي ويحدث الخطأ التالي عند إنشاء مصفوفة‎ 

ترميز JU-»M‏ النهائي ذات الواحد الساخن. 
[File Name]: | 0110011003 |envs|python3.10.9 Mib |site-packages \numpy |core|shape base.py‏ 
[Procedure Name]: stack [Error Message]: all input arrays must have the same shape [Error‏ 


Type]: «class 'ValueError'» [Line Number]: 426 [Line Code]: raise ValueError('all input 
arrays must have the same shape") 


بالنسبة لحالات الاستخدام هذه. يمكننا إزالة الصف (فقدان البيانات (loose the data‏ أو استخدام نوع 


من حشو التسلسل .sequence padding‏ بالنسبة لأي من هذه الحلول» يجب اختبار نموذج (نماذج) 
التعلم الالي المحدد بعناية باستخدام مجموعات بيانات إنتاج حقيقية. 


حشوة ترميز واحد ساخن لتسلسل DNA‏ 
دعونا نلقي نظرة على حلول حشو تسلسل الحمض النووي .DNA sequence padding‏ توفر المدونة 
"معالجة مدخلات الحمض النووي ذات الحجم المتغير" أساسيات حشو التسلسل باستخدام مكتبة كيراس 


Keras" ورقة‎ ġpad sequences) تمت تغطية مقدمة جيدة لدالة‎ .https://keras.io/) 


.'pad sequences 
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افترض أن لدينا تسلسلين من الحمض النووي بأحجام مختلفة. هذا هو أول واحد. 


1. DNA sequence string: 
ATGATCGCATAGATGACTAGT 
DNA sequence list: 
] T. VEU VAM P. PUES. E E AT, "T 'A', UU "AT, 
"mr Uu 
7 7 
MA d DM LET E Ta 
DNA sequence label encoder: 
[0 9 209i 21 0 20 2 20 1229 2 3l 
DNA sequence label encoder reshap 
IO 3 Z O9 S LL Z 1 9 92 0 SG 2 01 » 0 2 3J 
DNA sequence one-hot encoder (dna one hot encoderl): 
LiL: 


OOOOH OG 


os 
0 z ] 
DNA sequence one-hot encoder shap 
(21, A) 

Number of rows: 

2L 

Number of columns: 

4 


(G5) يق‎ 0» (e) يي تا كم‎ (ex (em) تت‎ (85) (em) (eX << em حرم‎ dem (Em (Ex. (Em (eo) 
(&» في تك خم‎ (ey d» je C» e» حر‎ 0m» يق‎ O qe» حر‎ (Y (Y (XV gg تت‎ GG 
i en ems [em vem Xen Jp dem dence [r2 (m) Xesy teoy cm» JE vesy ex [E cu» 


2. DNA sequence string: 

ATGATCGCATAGATGACTAGTAGAT 

DNA sequence list: 

p 5A VITE cu VUA T WGH 'G', hone AG UE" "BU. ure XR. 
US qp m Nt 

TATT Uu Nune UU E veur MIU TA EN A TI 
DNA sequence label encoder: 

IU 9 2 0 S i 2 1 9 S 0 2 0 9 20 15302 $902 3] 
DNA sequence label encoder reshap 

LEO 9 2 9 S 1 Zi? 20 920 150 ES CZ CO JJ] 
DNA sequence one-hot encoder (dna one hot encoder2): 
[ibo (0.5 Oa 65] 
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> em dem 0-2 emn 


0 


62 (69 22 (823 (e حم‎ (65x حر انق في اي‎ 4€» (ey تك كك 22 حىئ فى 9ك )065 حر‎ a (Ex) 
كر‎ es xe» (my JL 2462 [pe يي يي‎ [L2 تي‎ 222 Jc (em) A E BA e dem) ES dem) «ee [s 


لعا 
تح O‏ فى أت حر (e»Y (em) 22 ue»‏ نت em) (EY GE»)‏ تج ىا © CY‏ نئي te»‏ ته )95( )65( en‏ 2252© 


0 1 ai] 
DNA sequence one-hot encoder shap 
2, A) 

Number of rows: 

25 

Number of columns: 

4 


تسلسل الحمض النووي الأول له شكل (4 ,21) والثاني )4 ,25( سنحتاج إلى استخدام نوع من المساحة 
المتروكة لأول واحد لإضافة أربعة صفوف أخرى إليه. للقيام بذلك. سيتم استخدام دالة كيراس 


pad. sequencesQ‏ الموضحة أدناه. 


Gstaticmethod 
def dna onehot encoder padding(dna onehot encoded list, data type, 
padding type, padding value): 
try: 
dna padding - 
tf.keras.preprocessing.sequence.pad sequences(sequences-dna onehot | 
ncoded list, 
dtype-data type, padding-padding type, value-padding value) 
excepi: 
print(PyDNA.get exception info()) 
if PyDNA. app is log: PyDNA.write log file("error", 
PyDNA.get exception info()) 
return dna padding 


في البرنامج أدناه. يتم تمرير قائمة تسلسل الحمض النووي المشفر واحد ساخن إلى 
PYDNA. dna onehot. encoder. paddingO‏ لتعبئة الأول. 


dna onehot encoded list = [dna one hot encoderl, 
dna one hot encoder2] 
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ToT dren aim Gna 521 ل‎ lists 
print("DNA one-hot encoder: Nn()".format(item)) 
dna padding - 
PyDNA.dna onehot encoder padding(dna onehot encoded list, "float32", 
"pre", 0) 
for padded in dna padding: 
print (padded.shape) 
print ("DNA one-hot encoder padded: Mn()".format (padded) ) 


دعونا نلقي نظرة على نتائج البرنامج لأول مشفر تسلسل الحمض dna one hot encoder $5 jJ!‏ 
قبل الحشو. 


DNA one-hot encoder: 
م‎ 


(E) 
(= 


(em Xem تت‎ (e) + ات‎ 
MOTT فق يك قث‎ Or OOF (EX) (2X E (CA $— ا يت‎ (09 [0 O 


I xe» (e [px «em a cem JE (m) ex cte |I Xem E Xe»y (em jp- Xe» (ey ES em) 


[is 
`~ 
حن‎ 


6 
DGO به‎ (XY © ات‎ (E (em) (EX (Ex) 5 كه‎ (em) JE OR انث‎ E ES E) 


n 
5 
w 

7 
0 


ها هي النتائج بعد الحشو. 


DNA one-hot encoder padded: 
LO. (a. 07 


(ey em) [E O dem) ني يئ‎ |f— ee GOG |l Xem (ey (mmi (em) (6m) 


Or rO ہے‎ Xe») (es) (e) (e [5 Xem) (em) [3 (6 (9) (e) 
(e em ب‎ ms a (em [E ىجا )85( ات في اث فت‎ OOG 
يق دح يق 9( ىق تك ےا‎ de de» POOO OO 
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Ls Qs O. 0, 
Os 9. Oo i. 
Os O0. 15 Q5 
ds fa (i. Qi. 
Dio. dis 39 O 
do O, QU. i. 
l5 O9. 0s Os 
Qu a do 0 
)6 O. (e. 3bs]p] 


shape: (25, 4)‏ 
كما ترى. تمت إضافة الصفوف الأربعة التالية ذات القيم الصفرية إلى بداية مشفر numpy‏ غير المترابط. 


U. O. U. 9 
0. Q9. O. 0 
O 0s 0s 0 
0, 9. O. 0 
إذا تغيرت قيمة الحشو إلى 1( ستكون الصفوف الأربعة الأولى كما يلي:‎ 
E bg bo En 
e sdb dba 
ds ds ds 5 
La CIL SS db. ig 


من المهم الإشارة إلى أنهي حالة احتواء أي من مجموعات البيانات المشفرة ذات الترميز الواحد ساخن 

لتسلسل الحمض النووي على عدد مختلف من الأعمدة. فلن تعمل دالة حشو التسلسل هذه. لهذه الحالة 
سيحدث الخطأ التالى. 

[File Name]: C: |Users|portland | 01102011003 \envs |python3.10.9 lib |site- 

packages |keras |utils|data  utils.py [Procedure Name]: pad sequences [Error Message]: 

Shape of sample (3,) of sequence at position 1 is different from expected shape (4,) [Error 


Type]: «class 'ValueError'» [Line Number]: 1084 [Line Code]: raise ValueError(Shape of 
sample (3,) of sequence at position 1 is different from expected shape (4,)) 


الآن بعد أن أصبح لجميع تسلسلات الحمض النووي ذات الترميز الواحد ساخن لها نفس الشكل» يمكن 
تطبيق أي خوارزميات DLN‏ لتطوير النماذج التنبؤية النهائية. يجب اختبار هذا النموذج مع بيانات الإنتاج 
المعروفة الحقيقية. 


تنظيف بيانات تسلسل , DNA‏ 

أثناء تطوير التعلم «QAI‏ يكون تنظيف البيانات data cleaning‏ (المعالجة المسبقة (preprocessing‏ 
حوالي 160 — 70/ من العمل بأكمله. يعرف مهندسو البيانات ذلك جيدا. بالنسبة لمشروعات تسلسل 
DNA‏ للتعلم الالي باستخدام التصنيف classification‏ والانحدار regression‏ والتجميع 
«clustering‏ تعد عملية تنظيف البيانات مهمة جد ومطلوبة. للتحقق من تسلسل الحمض النوويء هناك 
متطلبان رئيسيان: 
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1. يجب أن تحتوي سلسلة تسلسل الحمض النووي فقط على أربعة أحرف نيوكليوتيد رئيسية A‏ و 
© و © و'1. أي حرف آخرفي سلسلة التسلسل سينشئ عمودًا oda‏ عند تحويله إلى مشفر 
واحد ساخن. 

2. يجب أن تحتوي سلسلة تسلسل الحمض النووي على جميع النيوكليوتيدات الأربعة الرئيسية 
حرف ۸ و € و 6 و T‏ أي حرف مفقودفي سلسلة التسلسل سيقلل من كمية الأعمدة عند 
تحويلها إلى مشفر واحد ساخن. 


دعونا نلقي نظرة على بعض حالات الاستخدام للتحقق من هذين المطلبين.في نتائج الشفرة أدناه. يمكننا 

أن نرى تسلسل DNA‏ صالحًا يحتوي على جميع النيوكليوتيدات الأربعة الرئيسية. يتكون شكل الترميز 
الواحد الساخن من 60 صقا و 4 أعمدة. 

DNA sequence string: 

AACTTCTCCAACGACATCATGCTACTGCAGGTCAGGCACACTCCTGCCACTCTTGCTCTT 

DNA sequence validation result: 

True 

DNA sequence one-hot encoder shape: 

(60, 4) 

في النتائج الثانية الموضحة أدناه. يمكننا أن نرى أن تسلسل الحمض النووي يحتوي على حرف جديد 

". بسبب ذلك فشل التحقق من الصحة validation failed‏ . تم زيادة شكل المشفر واحد ساخن 

بمقدار عمود آخر. 


DNA sequence string: 
AACTTCTCCAACGACATCATGCTACTGCAGGNCAGGCACACTCCTGCCACTCTTGCTCTT 
DNA sequence validation result: 

False 

DNA sequence one-hot encoder shape: 

(60, 5) 


في نتائج الشفرة الثالثة أدناه يمكننا أن نرى أن تسلسل الحمض النووي يفتقد حرف النوكليوتيدات 


الأساسي "6". فشل التحقق من الصحة بسبب هذا. تم تقليل شكل المشفر واحد ساخن بمقدار عمود 
واحد. 


DNA sequence string: 
AATCTTCCCAACCCCTCTCTCTTACTTTCTAATCTATCATCTACTCATCTATCCTCACTT 
DNA sequence validation result: 

False 

DNA sequence one-hot encoder shape: 

(60, 3) 


للحالتين Z26JE‏ والعالتة أعلاة: يجب تحديت cB ico‏ تسلسل الحمقن التووي أو إزالتها: الأمر هتروك 
لفريق إدارة مشروع التعلم الآلي لاتخاذ هذه القرارات. 
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مجموعة بيانات تسلسل جينات Splice-junction‏ 

تحتوي مجموعة بيانات تسلسل الجينات splice-juncton gene sequences splice-junction‏ 
dataset‏ على معلومات حول الوصلات الوراثية المأخوذة من 64.1 -Genbank‏ يوضح وصف المهمة 
أن الجينات تتم إزالتها أثناء عملية نسخ الحمض النووي الريبي RNA‏ وتسمى إنترونات introns‏ 
بينما تستخدم المناطق لتوليد MRNA‏ وتسمى إكسونات exons‏ تسمى الوصلات بينهما تقاطعات 
.(splice-junctions) splice‏ هذه التقاطعات هي BUS‏ على تسلسل الحمض النووي حيث تتم إزالة 
الحمض النووي "الزائد "superfluous‏ أثناء عملية تكوين البروتينني الكائنات الحية الأعلى. هناك نوعان 
من وصلات الربط: تقاطع exon-intron‏ وتقاطعات intron-exon‏ يتكون كل تسلسل من 
تسلسلات الحمض النووي في مجموعة البيانات هذه من 60 نيوكليوتيد قاعدي. ينتمي كل تسلسل DNA‏ 
إلى واحدة من ثلاث فئات: "ET‏ (تقاطع "IE" 5 «(Extron-Intron‏ (تقاطع (Intron- Extron‏ و 
"N"‏ (ليس EI‏ أو (IE‏ هناك 767 جينة تحمل تسمية EI‏ و 768 بعلامة IE‏ و 1655 بعلامة N‏ تتمثل 
مهمة مجموعة البيانات هذهفي تصنيف. بالنظر إلى تسلسل الحمض النووي» الحدود بين exons‏ (أجزاء 
تسلسل الحمض النووي المحتفظ بها بعد الربط (splicing‏ والإنترونات introns‏ (أجزاء تسلسل 
pa‏ انرون القن pii ea‏ 

مشاكل الفثات غير المتوازنة في تسلسل الحمض النووي 

يعد التعامل مع مشكلات العالم الحقيقي لمجموعات بيانات الفتات غير المتوازنة imbalanced‏ 
classes datasets‏ باستخدام التعلم الآلي الحالي مهمة بسيطة لأنواع بيانات الميزات العددية.في الورقة 
البحثية "تصنيف التعبير الجيني RINA- Seq‏ باستخدام خوارزميات التعلم i SI‏ استخدمت تقنية فرط 
أخذ العينات للأقليات الاصطناعية Minority Oversampling Technique (SMOTE)‏ 
لمجموعة بيانات .ANA-Seq (HiSeq) Pan-Cancer Atlas dataset‏ تم تنفيل ذلك باستخدام 
سطور الشجرة &JUJI‏ من كود .Python‏ 


2 


from imblearn.over sampling import SMOTE 
smote over sampling = SMOTE(random state-50, n jobs--1) 
X, y = smote over sampling.fit resample(X, y) 


حيث × هي مصفوفة قيم السمات features values‏ و هي المصفوفة (أو متجه أحادي البعد) لقيم 
الهدف target‏ (التسمية (label‏ - هذا كل شيء حتى «o‏ جيد وبسيط! 


في مجموعات بيانات الجينوم الخاصة بناء تكون تسلسلات الحمض النووي عبارة عن أنواع بيانات 
(نصية (text‏ فئوية categorical‏ كما نعل أي خوارزميات حل الفئات غير المتوازنة تعمل مع البيانات 
العددية فقط.في هذه الحالةء يجب التحقق من صحة (تنظيف (cleanup‏ مجموعة بيانات تسلسل 
الحمض النووي ومعالجتها مسبقًا (مشفرة Cencoded‏ من قبل.في بحثي بعنوان "تطبيق خوارزميات التعلم 
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الآلي لتصنيف بيانات الجينوم“؛ غطيت ثلاث طرق ترميز رئيسية لسلسلة تسلسل الحمض النووي: ترميز 
التسمية Label Encoding‏ والترميز الواحد الساخن One-Hot Encoding‏ . وعد K- K-mer‏ 
(mer Counting‏ هذه الورقةء سأستخدم ترميز التسمية. بالنسبة لتسلسل نيوكليوتيدات القاعدة الأربعة 
"ACGT"‏ . فإن التسمية الافتراضية المشفرة ستكون [0 . 1 . 2 . 3]. بالنسبة لمجموعة البيانات الأصلية 
يتم عرض مخطط حدود فئات الحمض النووي غير المتوازنة أدناه. 


حل الفتات غير المتوازنة لتسلسل الحمض النووي المتقدم باستخدام خط أنابيب 
بيانات ETL‏ 

للتحقق من تسلسل الحمض النووي وتشفير مجموعة بيانات csplice-junction‏ سأستخدم عملية 
أنابيب بيانات شائعة RR‏ تسمى إي إل تي .Extract- Transform-Load (ETL)‏ عندما يكون 
"الاستخراج "Extract‏ هو استخراج البيانات من مصدر واحد أو أكشر فإن "التحويل "Transform‏ هو 
تحويل البيانات (المعالجة المسبقة preprocessing‏ أو التنظيف (cleansing‏ و "التحميل Load‏ هو 
تحميل البيانات إلى وجهة واحدة أو أكثر. 


“إي إل تي ETL‏ هو الإجراء العام لنسخ البيانات من مصدر واحد أو أكثر إلى نظام الوجهة الذي يمثل 
البيانات بشكل مختلف عن المصدر (المصادر) أوفي سياق مختلف عن المصدر (المصادر). أصبحت 
عملية ETL‏ مفهومًا USUS‏ السبعينيات وغالبًا ما تستخدمفي تخزين البيانات. يتضمن استخراج البيانات 
Data extraction‏ استخراج البيانات من مصادر متجانسة homogeneous‏ أو غير متجانسة 
‘heterogeneous‏ يعالج تحويل البيانات data transformation‏ البيانات عن طريق تنقية البيانات 
وتحويلها إلى تنسيق / هيكل تخزين مناسب لأغراض الاستعلام والتحليل؛ d‏ يصف تحميل البيانات 
data loading‏ إدخال البياناتفي قاعدة البيانات الهدف النهائي مثل مخزن البيانات التشغيلي 
operational data store‏ أو سوق البيانات data mart‏ أو بحيرة البيانات data lake‏ أو مستودع 
البيانات data warehouse‏ ". فيما يلي رسم تخطيطي بسيط لعملية .ETL‏ 
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Source Destination 


g 


= | 
e E 
- 5 


في حالتناء فإن المنتج النهائي لعملية ETL‏ هذه هو إنشاء ملف CSV‏ تم التحقق من صحته ومعالجته 
مسبقا. يمكن تطبيق هذا الملف على أي خوارزميات تصنيف تحت إشراف التعلم الآلي بمافي ذلك 
.DLN‏ 


Destination 


Source 
uw - 


تم تصميم خوارزمية ETL DNA‏ الجديدة التالية وتطويرها واختبارها باستخدام العديد من مجموعات 
بيانات الجيثوم. 


1. تنظيف مجموعة بيانات تسلسل الحمض النووی ETL‏ 

بالنسبة لعملية ETL‏ الأولية هذه افتح ملف مجموعة البيانات الأصلي 
"splice junction dna sequence original.csv"‏ » وقم بتطبيق تسلسل DNA‏ الذي يقوم 
puel‏ التحقق "m‏ الصريدة ET cit eias‏ 
"splice junction dna sequence cleanup.csv"‏ فما يلي الدالة الأولى ‏ " 


." dna sequence cleanup csv pathO 


def etl dna sequence cleanup(dna sequence original csv path, 
dna sequence cleanup csv path, dna sequence columns list): 
"""splice junction dna sequence original data preprocessing to 
create a 
new splice junction dna sequence cleanup data csv file 
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args: 
dna sequence original csv path (string): dna sequence 
original csv path 
dna sequence cleanup csv path (string): dna sequence cleanup 
csv path 
dna sequence columns list (list): list example ["dna class", 
"dna sequence"] 
return: None 
non ow 
result - False 
UI 
df genomics original - PyDNA.pandas read data("CSV", 
dna sequence original csv path, None) 
df genomics original.dropna(how-"all", inplace-True) 
print("DNA sequence original data frame shape:\n{} 
".format(df genomics original.shape)) 
Caa elass List = [I 
dna sequence list = [] 
for row in df genomics original.itertuples(): 
dna class = row.dna class 
dna sequence > row.dna sequence 
is dna result - PyDNA.is dna(dna sequence) 
abit lg Cna FeSULE == Tues 
dna class list.append(dna class) 
dna sequence list.append(dna sequence) 
df genomics cleanup - pd.DataFrame(list(zip(dna class list, 
dna sequence list)), columns-dna sequence columns list) 
print("DNA sequence cleanup data frame 
shape:\n{}". format (df genomics cleanup.shape)) 
total remove rows = df genomics original.shape[0] - 
df genomics cleanup.shape[0] 
print("DNA sequence original total remove 
rows:\n{}". format (total remove rows)) 


df genomics cleanup.to csv(path or buf-dna sequence cleanup csv path 
, index-False) 
print("DNA sequence cleanup csv file 
created: Nn()".format(dna sequence cleanup csv path)) 
result - True 
except 
print(PyDNA.get exception info()) 
غك‎ EvVONAS GPP 5د‎ log: EVONAwEIEe loe FIle 007 
PyDNA.get exception info()) 
return result 


تمرير المعلمات واستدعاء كود الدالة. 


csv path folder > r"Ncsv folder path" 

dna sequence original csv path - os.path.join(csv path folder, 
"splh'cesgyunctionsdnawsecquencemoriguvnadlsesw) 

dna sequence cleanup csv path - os.path.join(csv path folder, 


115 التعلم العميق واستخداماته في المعلوماتية الحيوية 


"splice junction dna sequence cleanup.csv") 

dna sequence columns list - ["dna class", "dna sequence"] 

result = etl dna sequence cleanup(dna sequence original csv path, 
dna sequence cleanup csv path, dna sequence columns list) 

print (result) 


النتائج: 
DNA sequence original data frame shape:‏ 
(S100, 2‏ 
DNA sequence cleanup data frame shape:‏ 
(Sg. 2)‏ 
DNA sequence original total remove rows:‏ 
21 


DNA sequence cleanup csv file created: 
Ncsv folder path'Nsplice junction dna sequence cleanup.csv 
True 


كما 035« ol‏ اول عملية ETL‏ تزيل 21 ue‏ من الملف الأصلى لتسلسل الحمض النووي. إلى 
مخطط تسلسل الحمض النووي الجديد غير المتوازن لحدود الفتات. 


Splice-junction DNA Gene Sequences 


1642 
1600 
1400 
1200 
1000 
762 765 

600 
400 
200 
0 

El E N 


Imbalanced DNA Class Boundaries 


Count 
8 
e 


e 


بالنسبة إلى ET E3‏ تمت إزالة صفوف 5. و 3 صفوف لفتة "18" و 13 Ge‏ لفئة "N"‏ أول عملية 
تنظيف ETL‏ جيدة Ío‏ 
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2. ترميز تسمية مجموعة بيانات تسلسل الحمض النووى ETL‏ 

تستخدم عملية ETL‏ الثانية الدالة " ed dna sequence label encoderO‏ " لإنشاء الملف 
"splice junction dna sequence labelencoder.csv‏ تقوم هذه الدالة بتحويل كل صف 
سلسلة تسلسل DNA‏ إلى مشفر تسمية label encoder‏ عادي باستخدام مكتبة  .PyDNA‏ 
data frame label encoder (dna numpy array)‏ طريقة API‏ المتوفرةفي تطبيق خوارزميات 
gia a A‏ ~ 


csv path folder = r"Ncsv folder path" 

dna sequence cleanup csv path - os.path.join(csv path folder, 
"splice junction dna sequence cleanup.csv") 

dna sequence labelencoder csv path - os.path.join(csv path folder, 
"splice junction dna sequence labelencoder.csv") 

result = 

etl dna sequence label encoder(dna sequence cleanup csv path, 
dna sequence labelencoder csv path) 

print (result) 


DNA sequence cleanup data frame shape: 
(S1697 2 

DNA sequence label encoder data frame shape: 
(S199, GL) 


DNA sequence label encoder csv file created: 
Ncsv folder pathNsplice junction dna sequence labelencoder.csv 


True 

CEI فيما یلی أول 10 صفوف من صف‎ 
نورك ملام 3515071 1535254507 1551550527 م للها‎ Up لمك وك‎ lO Lge ان لقو قا قم الى لون لمان‎ 
0 9p يطل ملقم قي‎ l rO 0 2.25725 ا ررق مطل مقي لك بطل‎ 2p ورلا ولت مقن لمان لل لك‎ Ir2 
EI,0,2,0,1,1,1,2,1,1,2,2,2,0,2,2, ,2,2,0,2,2,0, 7 ;3,2,1,0,2,2,2,3,2 
;0,2,1,1, ;1,0,1,1,2,1,1, ;1,3,1,1,2,3,2,1,1,1,1,1,2,1 
21.250522. 35,20507252510,3. 725371515 0 بب‎ 2 
,0,2,0,0,2,1,2,1,0,2,3,1,2,2,2,2,2, ,0,1,2,2,2,2,0,3,2 
EI,2,2,2, ;3,2,1,2,3,3,2, :3,2,2,3, ,0,1,0,3,3, 7 ,3,2,2,1,0,2,20 
,3,2,2,2,2, ,2,2,2,2,1,3,3,2, ,3,1,2,2,3,3,3,3,1, 11 
Im 2 O E O O A OO O 2 
0 O 1 جلي لان‎ E E OS 
E O O O ا ا‎ OO 
0 O مرق مق‎ irl 0 O SO ملك‎ O نك‎ O OT O 
E O O A O L072 l0 002r 0 A O A A ly O 2 O 
gdpdpsSpdplsl15051,1.9,5,2521,;1515;352525952525;151525171.50 
IE 515151, 951525352515 25259515425051525051.2150507522051 5150,25152525352 
50525151505:152,2522515052,25,1515,252529p2p95p.pdp9pepgdgdpd. 
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111111777 
1 ,3,1 ,8,1,1,1,9,9,1,3,1,1,0,2 مقر ,371,1 Og,‏ 
OO 22‏ 9,150,015 رقم قي 1 متم ولا AA‏ ,0,150572 ,2,1,9,2 ,315,00 
A‏ ,5(0,2,1,1,0,2,2,0,2,8,1,2,2,2,9,9,2,9,0,9,2,2,9,92,0 


ETL DNA Sequence Dataset SMOTE .3‏ 
تستخدم ETL ihe‏ الثالثة الدالة etl dna sequence label encoder smoteO"‏ " لإنشاء 
الملف "splice junction dna sequence labelencoder smote.csv"‏ تستخدم هذه الدالة 
خوارزمية تقنية زيادة عينات الأقليات الاصطناعية (SMOTE)‏ لموازنة جميع فتات الشجرة إلى 1.642 
صفًا. يجب أن يكون إجمالي الصفوففي مجموعة البيانات هذه الآن 1642 x‏ 3 = 4926 كما ترى elal‏ 

من حساب JS S‏ إطار بيانات .SSMOTE‏ 


تمرير المعلمات واستدعاء كود الدالة. 


csv path folder > r"Ncsv folder path" 

dna sequence labelencoder csv path - os.path.join(csv path folder, 
"splice junction dna sequence labelencoder.csv") 

dna sequence labelencoder smote csv path - 
os.path.join(csv path folder, 

"splice junction dna sequence labelencoder smote.csv") 

dna sequence size - 60 

pest 

etl dna sequence label encoder smote(dna sequence labelencoder csv p 
ath, dna sequence labelencoder smote csv path, dna sequence size) 
print (result) 


DNA sequence label encoder data frame shape: 
(ode GL) 

DNA sequence SMOTE data frame shape: 

(AZO, GL) 


DNA sequence smote csv file created: 
Ncsv folder pathNsplice junction dna sequence labelencoder smote.csv 
True 


تم 35 طريقة PYDNA. balance class smote(X, y)‏ .ن مقالة( تصنيف التعبير الجيني RNA-‏ 
Seq‏ باستخدام خوارزميات التعلم الآلي). يظهر أدناه مخطط الحدود المتوازنة لفئات الحمض النووي 
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Splice-junction Balanced DNA Sequences 


1642 1642 1642 
1600 
1400 
1200 
1000 
600 
400 
200 
0 

El [3 N 


DNA Class Boundaries 


Count 
8 


4. مجموعة بيانات تسلسل الحمض النووی ETL‏ المعالجة مسبقا لشبكات التعلم 


العميق 
تستخدم ETL ike‏ الرابعة الدالة " etl dna sequence final dinO‏ " لإنشاء الملف 


"splice junction. dna sequence final dln.csv"‏ هذه العملية تحول مشفر التسمية تسلسل 


الحمض النووي مرة أخرى إلى سلسلة تسلسل الحمض النووي. تم استخدام طريقة API‏ 
PyDNA.dna labelencoder to sequence string CX)‏ لذلك. 


تمرير المعلمات واستدعاء كود الدالة. 


dna sequence labelencoder smote csv path - 
os.path.join(csv path folder, 

"splice junction dna sequence labelencoder smote.csv") 

dna sequence final to dln csv path - os.path.join(csv path folder, 
"splice junction dna sequence final to dln.csv") 

dna sequence size - 60 

pesi 

etl dna sequence final dln(dna sequence labelencoder smote csv path, 
dna sequence final to dln csv path, dna sequence size) 

print (result) 


النتائج: 


DNA sequence SMOTE data frame shape: 
(4926, 61) 

DNA sequence DLN data frame shape: 
(2192/67882) 
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DNA sequence DLN csv file created: 
Ncsv folder pathNsplice junction dna sequence final to dln.csv 
EE UE 


الآن لدينا مجموعة بيانات تسلسل DNA‏ صالحة وكاملةء يمكننا استخدام أي من خوارزميات DLN‏ 
فيما يلى 10 أمثلة للصفوف لفئة "ET‏ 


dna class,dna sequence 

EI,GAGGTGAAGGACGTCCTTCCCCAGGAGCCGGTGAGAAGCGCAGTCGGGGGCACGGGGATG 
EI,GGGCTGCGTTGCTGGTCACATTCCTGGCAGGTATGGGGCGGGGCTTGCTCGGTTTTCCCC 
EI,GCTCAGCCCCCAGGTCACCCAGGAACTGACGTGAGTGTCCCCATCCCGGCCCTTGACCCT 
EI,CAGACTGGGTGGACAACAAAACCTTCAGCGGTAAGAGAGGGCCAAGCTCAGAGACCACAG 
EI,CCTTTGAGGACAGCACCAAGAAGTGTGCAGGTACGTTCCCACCTGCCCTGGTGGCCGCCA 
EI,CCCTCGTGCGGTCCACGACCAAGACCAGCGGTGAGCCACGGGCAGGCCGGGGTCGTGGGG 
EI,TGGCGACTACGGCGCGGAGGCCCTGGAGAGGTGAGGACCCTCCTGTCCCTGCTCCAGTCC 
EI,AAGCTGACAGTGGACCCGGTCAACTTCAAGGTGAGCCAGGAGTCGGGTGGGAGGGTGAGA 
EI,TGGCGACTACGGCGCGGAGGCCCTGGAGAGGTGAGGACCCTGGTATCCCTGCTGCCAGTC 
EI,AAGCTGAGAGTGGACCCTGTCAACTTCAAGGTGAGCCACCAGTCGGGTGGGGAGGGTGAG 


5. تنظيف مجموعة البيانات النهائية لتسلسل الحمض النووي ETL‏ 
أوصي بتطبيق أول عملية ETL‏ لتسلسل الحمض النووي مرة أخرى للتأكد من أن لدينا مجموعة بيانات 
نهائية صالحة. 


تمرير المعلمات واستدعاء كود الدالة. 


csv path folder > r"Ncsv folder path" 

dna sequence original csv path - os.path.join(csv path folder, 
Splice Junction hne Sequence imas Cim esw”) 

dna sequence cleanup csv path = os.path.join(csv path folder, 
splice junction dna sequence final cim cleanup.csv") 

dna sequence columns list - ["dna class", "dna sequence"] 
result > etl dna sequence cleanup(dna sequence original csv path, 
dna sequence cleanup csv path, dna sequence columns list) 

print (result) 


النتائج: 


DNA sequence final DLN data frame shape: 
OZO, 2) 
DNA sequence final DIN cleanup data frame shape: 

(4926, 2) 

DNA sequence DLN csv file created: 

Ncsv folder pathNsplice junction dna sequence final to dln cleanup.c 
sv 

True 
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معالجة البيانات الكاملة لتسلسل الحمض ETL ,599Jl‏ 
يوجد أدناه كود عملية خط أنابيب بيانات تسلسل DNA ETL‏ بالكامل. 


# 1. ETL DNA Sequence Cleanup 
csv path folder = r"G: NVisual 
WWWNPythonN1000 python workspace NMbushnell ml ai project'*cvs2" 
dna sequence original csv path - os.path.join(csv path folder, 
"splice junction dna sequence original.csv") 
dna sequence cleanup csv path - os.path.join(csv path folder, 
Uspilicesuncidongdragsecdquencemelednmupsesvi) 
dna sequence columns list - ["dna class", "dna sequence"] 
result > etl dna sequence cleanup(dna sequence original csv path, 
dna sequence cleanup csv path, dna sequence columns list) 
print ("1. ETL DNA Sequence Cleanup: {}". format (result) ) 
E result == els 

exit () 


# 2. ETL DNA Sequence Label Encoder 

# csv path folder = r"G:\Visual 
WWW\Python\1000 python workspace\bushnell ml ai project'cvs" 

dna sequence cleanup csv path - os.path.join(csv path folder, 
"splice junction dna sequence cleanup.csv") 

dna sequence labelencoder csv path - os.path.join(csv path folder, 
"splice junction dna sequence labelencoder.csv") 


Teswir = 
etl dna sequence label encoder(dna sequence cleanup csv path, 
dna sequence labelencoder csv path) 
print("2. ETL DNA Sequence Label Encoder: {}". format (result) ) 
if result -- Fals 

exit() 


4 3. ETL DNA Sequence SMOTE 
* csv path folder = r"G: NWisual 
WWWNPythonN1000 python workspaceNbushnell ml ai project'cvs" 
dna sequence labelencoder csv path - os.path.join(csv path folder, 
"splice junction dna sequence labelencoder.csv") 
dna sequence labelencoder smote csv path - 
os.path.join(csv path folder, 
"splice junction dna sequence labelencoder smote.csv") 
dna sequence size - 60 
result = 
etl dna sequence label encoder smote(dna sequence labelencoder csv p 
ath, dna sequence labelencoder smote csv path, dna sequence size) 
print("3. ETL DNA Sequence SMOTE: {}". format (result)) 
if result -- Fals 

exit() 


# 4. ETL DNA Sequence Final DLN 
î csv path folder = r"G:NVisual 
WWWNPythonN1000 python workspaceNbushnell ml ai project'cvs" 
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dna sequence labelencoder smote csv path - 
os.path.join(csv path folder, 
"splice junction dna sequence labelencoder smote.csv") 
dna sequence final to dln csv path - os.path.join(csv path folder, 
"splice junction dna sequence final to dln.csv") 
dna sequence size - 60 
ieu = 
etl dna sequence final dln(dna sequence labelencoder smote csv path, 
dna sequence final to dln csv path, dna sequence size) 
print("4. ETL DNA Sequence Final DIN: {}". format (result) ) 
if result -- Fals 
exit() 


# 5. ETL DNA Sequence Final DLN Cleanup 
# csv path folder = r"G: Visual 
WWWNPythonN1000 python workspaceNMbushnell ml ai project'cvs" 
dna sequence final to dln csv path - os.path.join(csv path folder, 
Uspiliicesgunciiongdramsecquencem final EO QIN e svi) 
dna sequence final to dln cleanup csv path - 
os.path.join(csv path folder, 
Sollee Junction Cne Sequence Finel to Cim clsanwo Gsv) 
dna Sequenee Columns list = [tcra Classi Ona quem 
ie Su 
etl dna sequence cleanup(dna sequence final to dln csv path, 
dna sequence final to dln cleanup csv path, 
dna sequence columns list) 
print("5. ETL DNA Sequence Final DEN Cleanup: ([(j".format(result)) 
if result -- Fals 
exit() 


تطبيق الشبكات العصبية التلافيفية على مجموعات بيانات الفثات غير المتوازنة 
والمتوازنة في تسلسل الحمض النووي 

في ورقة تطبيق موارؤميات التعلم الآلى cias‏ يانات الجينوع. ثم تطبيق Ia gi‏ الشبكات العصيية 
التلافيفية (CNN)‏ للتنبؤ بتسلسل الحمض النووي المرتبط بالبروتين. بالنسبة إلى مجموعة بيانات 
splice-junction‏ لديناء فلنکتشف كيف يعمل نموذج CNN‏ مع الفتات غير المتوازنة والمتوازنةفي 
تسلسل الحمض النووي. فيما يلي نائج الفثات غير المتوازنةفي ملف بو 


"m 


splice junction dna sequence cleanup.csv 


Model: "sequential" 


Layer (type) Output Shape Param # 
convid (Convi1D) (None, 49, 32) 1568 
max poolingid (MaxPoolingilD) (None, 12, 32) 0 
flatten (Flatten) (None, 384) 0 
dense (Dense) (None, 16) 6160 

( 


dense 1 (Dense) None, 3) SIl 
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Total params: 7,779 
Trainable params: 7,779 
Non-trainable params: O0 


Model Validation 

10/10 [ ] - 0s 2ms/step 
valid accuracy score: 

95/584 


valid precision: 
95.686 


valid recall: 
55750 


valid El 555 
95.544 


valid confusion matrix: 
I 75 0 Li 

L 2 8 21 

LI 3 t 3599] 


valid classification report: 
precision recall fl-score support 


0 0.94 099 0.96 76 
1 0:299 0.88 (M59) ag) 
2 095 098 0236 164 
accuracy (004916 Sly) 
macro avg 0- SG 0S5 0.95 Su 7) 
weighted avg 01296 0.96 0.96 Siy 
odel Test 
LOLO f ] - 0s 1ms/step 
test accuracy score: 


9552 6) 


test precision: 
95336 


test recall: 
5576 


test fl score: 
SLOG 


test confusion matrix: 
IC 75 0 LI 

LX 65 3] 

dL 2 150621] 
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test classification report: 


precision recall fl-score support 
0 0.94 (0) G9] 0) 9$ 76 
1 0 97 0.86 Oa SI 76 
2 (0). 95 0/298 (0). 97 11:5 
accuracy (0). 35) Suy 
macro avg (0. 955 0.94 (9.055 Sul T) 
weighted avg 0 95 0 95 0. 95 Sy 


Model One Test 
«class 'pandas.core.frame.DataFrame'» 
RangeIndex: 1 entries, 0 to 0 
Data columns (total 1 columns): 
# Column Non-Null Count  Dtype 


0 dna sequence 1 non-null object 
dtypes: object (1) 
memory usage: 136.04 bytes 
3/43 f ] - 0s 86ms/step 
Class Predictive: 1 


بالنسبة لفات المتوازنة لتسلسل الحمض النوويفي ملف cvo‏ 


"splice junction dna sequence final to dln cleanup.csv‏ تظهر النتائج أدناه. 


Model: "sequential" 


Layer (type) Output Shape Param 4 
convid (Convi1D) (None, 49, 32) 1568 
max poolingid (MaxPoolinglD (None, TA, X2) 0 
flatten (Flatten) (None, 384) 0 
dense (Dense) (None, 16) 61 60 
dense 1 (Dense) (None, 3) 51 
togel paransi 1757175 

Trainable params: 7,779 

Non-trainable params: 0 

Model Validation 

16/16 [ ] = 0s 3ms/step 

valid accuracy score: 

95i. 1302 


valid precision: 
955746 


valid recall: 
95s 7312, 
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EEO‏ لع ل الطلدن 
HIS‏ 55 


valid confusion matrix: 
IEEE) 3 4] 

] 3 6 5 

] 4 2 Sol 


valid classification report: 
precision recall fil-score support 


0 0 0), 96 0.96 164 
1 (RIOT) 0)., 955 0. 6 164 
2 0) 5 0 OG 0). 95 164 
accuracy 0.96 492 
macro avg 02636 096 096 492 
weighted avg (PISIS 096 (PIOIG 492 
odel Test 
12616 i ] - 0s 2ms/step 
test accuracy score: 
SSA 


test precision: 
97 S19 


test recall: 
1A 


test fl score: 
GTa LE 


test confusion matrix: 
IE ERE E 0 3] 

] 1 156 6] 

] d 3 LaL] 


test classification report: 
precision recall fil-score support 


0 (E299 0.98 0.98 164 

1 (EOS OG omor 163 

2 095 096 096 165 

OE UIE TEY 00 42 
macro avg (PSO OOT (0). 97 492 
weighted avg (0) o, € y Oa S7 Oa ST 492 


Model One Test 
«class 'pandas.core.frame.DataFrame'» 
RangeIndex: 1 entries, 0 to 0 
Data columns (total 1 columns): 
# Column Non-Null Count Dtype 
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0 dna sequence Û non-null object 

dtypes: object (1) 

memory usage: 136.0-* bytes 

i/i p ] - 0s 58ms/step 
Class Predictive: 1 


استنادًا إلى نتائج CNN‏ المذكورة ced‏ يمكننا أن نرى درجة دقة اختبار أفضل بنسبة 97.1 / مع 
مجموعة بيانات فئات متوازنة لتسلسل الحمض النووي مقارنة بالفتات غير المتوازنة 95.2 /. آمل أن 
تفهم سبب وجوب موازنة فثات مجموعات بيانات تسلسل الحمض النووي قبل تطبيق أي خوارزميات 
le] 117‏ مهمة le‏ المستقبل. 
الاستنتاجات 
1. لتطبيق أي خوارزميات التعلم العميق على مجموعات بيانات تسلسل الحمض النووي» يلزم 
التحقق التالي: 
٠‏ يجب أن تحتوي سلسلة تسلسل الحمض النووي على الأحرف النوكليوتيدية الأربعة الرئيسية 
۸ و0 و T‏ فقط. أي حرف آخرفي سلسلة التسلسل سينشئ عمودًا adm‏ عند تحويله 
إلى مشفر واحد ساخن. 
e‏ يجب أن تحتوي سلسلة تسلسل الحمض النووي على جميع النوكليوتيدات الأربعة الرئيسية 
حرف ۸ و0 و 6 و'1. أي حرف مفقودفي سلسلة التسلسل سيقلل من كمية الأعمدة عند 
تحويلها إلى مشفر واحد ساخن. 
2. لتوليد بيانات تسلسل الحمض النووي التركيبةء تم اقتراح عملية خط أنابيب ETL‏ لزيادة بيانات 
التدريب / التحقق من الصحة وحل مشاكل الفئات غير المتوازنةفي التسمية. 
3. يحسن حل مشاكل الفئات غير المتوازنة التسميةفي مجموعات بيانات تسلسل الحمض النووي 
أداء نماذج تصنيف شبكات التعلم العميق. يجب أن يكون هذا Clas‏ ضروريًا لأي مشروع 
تصنيف وانحدار وتجميع لتسلسل DNA‏ باستخدام التعلم الآلي. 
المصدر: 


https://ernest-bonat.medium.com/advanced- dna-sequences-preprocessing- 
for-deep-learning-networks-9bf294c19d08 
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8( التعلم العميق على الحمض النووى القديم Deep Learning on‏ 
Ancient DNA‏ 

(إعادة بناء الماضي البشري بالتعلم العميق] 
الحمض النووي القديم Ancient DNA‏ رائع! مع التطورات الحاليةفي تسلسل الجيل التالي Next‏ 
«Generation Sequencing (NGS)‏ يمكننا استخراج الحمض النووي DNA‏ من العظام القديمة 
ancient bones‏ وتسلسله وفهم الكثير عن الماضي من خلال أنواع مختلفة من التحليلات الإحصائية 
وعلم الوراثة السكانية -Population Genetics analyses‏ 


ومع ذلك. فإن التلوث الحديث modern contamination‏ يمثل مشكلة كبيرةفي مجال أبحاث 
الحمض النووي القديم. اعترف Svante Pääbo‏ مؤسس علم الحفريات القديمة .paleogenetics‏ 
أنه el‏ الغالب بتسلسل الحمض النووي الحديث modern DNA‏ (على الأرجح ملكه)ني عمله 
sal‏ حول الحمى النووي من مومياء مصرية cool‏ إلى .هذا الميجال:ي o as cell‏ النظر إلى 
التسلسلات الحديثة والقديمة» لن تخمن Dl‏ أيها جاء من الماضي. لذلك يستخدم الباحثونفي هذا 
المجال oc‏ إحصائيًا متقدمًا مثل استدلال نمط ازالة الحامض الاميني deamination pattern‏ 
inference‏ حيث تكون أداة mapDamage‏ مفيدة جداً. ومع ذلك. فإن مشكلة تحليل ازالة الحامض 
الأمينى deamination analysis‏ تکمنفي أنه يعتمد على المتوسط عبر الآلاف والملايين من 
cod‏ المتوافقة» وبالتالي يكون ذلك ممكتا فقط إذا كان لديك عينة متسلسلة بعمق (هناك حاجة 
إلى الكثير ن الحمفن التووي القديم) egets)‏ مرجعي لليخصول على cables ciel‏ مع edi‏ 
الذي لا يتوفر دائمًا. 

هذا هو بالضبط المكان الذي يمكننا فيه الاستفادة من قوة التعلم الآلي والعميق لاكتشاف أشكال 
الحمض النووي النموذجية للتسلسلات القديمة والحديثة. 


التعلم العميق لعلم الجينوم 

نظرًا oM‏ تسلسل الحمض النووي هوني الأساس "نص بيولوجي C biological text‏ فيمكن تحليله 
باستخدام مناهج من معالجة اللغة الطبيعية Natural Language Processing‏ أو تحليل بيانات 
السلاسل الزمنية Time Series data analysis‏ . تستخدم الشبكات العصبية الاصطناعية Artificial‏ 
Neural Networks (ANINs)‏ على نطاق واسعني كلا المجالين ANI m‏ متطورًا لعلم الجينوم 
Genomics‏ أيضا. على سبيل المثال. الشبكات العصبية التلافيفية Convolutional Neural‏ 
Networks (CNN)‏ هي خيول gible‏ علم الجينوم الوظيفي «functional Genomics‏ انظر 
على سبيل المثال. مراجعة ممتازة ل Molecular Systems Biology .Argenmueller et al.‏ 
2 )2016( 878( حيث اكتشفوا بدقة عالية مواقع ربط عامل النسخ transcription factor‏ 
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e CNN من أجل التنفيذ العملي لشبكات‎ -splicing sites ومواقع التوصيل‎ binding sites 
Zou et al. الرائع من‎ "A Primer on Deep Learning in Genomics" الجينوم أو صي ب‎ 
يوضح الشكل أدناه من الورقة سير عمل نموذجي‎ .)2019( pages12718 Nature Genetics 51 


للتعليم العميقفي علم الجينوم. 

a Curate data è — i wk 
Sequence Label 
ü — 
[were] M i 
5 
M a m e 7 

ation 
" 

ACCTA 

m. Fecal Tp LEN ann 

t 
m" 


(2019) pages12—18 .Zou et al. Nature Genetics 51 لعلم الجينوم من‎ CNN 
للتنبؤ لكل تسلسل للحالة‎ (CNN) أعرض هنا كيفية بناء مصنف قائم على الشبكة العصبية التلافيفية‎ 
القديمة لتسلسل الحمض النووي دون تعيين الجينوم المرجعي. لكن دعونا نبدأ بالنظرفي تسلسل‎ 

الحمض النووي القديم. 


النظر في تسلسل الحمض النووي القديم 
لأغراض العرض التوضيحي» سأستخدم مسودة جينوم الإنسان البدائي draft Neanderthal‏ 
genome‏ وهو جهد تسلسل منخفض التغطية يعود إلى عام 2010. الملف عبارة عن تراصف 
alignment‏ (ملف بام (bam-file‏ لتسلسلات الحمض النووي لجينوم بشري 1518 . ولكن لا يجب 
أن يكون كذلك تراصف . يمكننا استخدام التسلسلات الأولية بشكل جيد (ملف .(fastq‏ يمكننا قراءة 
التسلسلاتفي elJ2 Python‏ وحدة pysam‏ سهلة الاستخدام ورسم توزيع أطوال التسلسلات. 
import oS‏ 
import pysam‏ 


import numpy as np 
os.chdir('/media/nikolay/My Book Duo/AncientDNA/') 


# Read Bam or Fastq file (it does not have to be Bam) 
neand = pysam.AlignmentFile("Neandertal.bam", "rb") 


# Record length of each DNA sequence 
iter - neand.fetch("chr1", 0, 249000000) 
neand lengths - [] 
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FOE 3L dm LESES 
neand lengths.append(i.infer query length()) 


4 Plot distribution of DNA read lengths 
import seaborn as sns 

import matplotlib.pyplot as plt 
plt.figure(figsize-(20,15)) 
sns.distplot(neand lengths) 

plt.show() 


Distribution of Ancient Sequence Lengths 


-— 


0 
SEQUENCE LENGTH 


من الواضح أن هناك انتشارًا واسعًا لأطوال تسلسل الحمض النووي من حوالي 20 نيوكليوتيد 10( إلى 
تسلسل طويل بطول 140 nt‏ (يقرأ بلغة المعلوماتية الحيوية). هذه حقيقة معروفة تخبرنا أن الحمض 
النووي القديم يتحلل degraded‏ أي يتكسر مع الوقت إلى أجزاء صغيرة. لذلك يمكن أن يكون طول 
التسلسل مفيد للغاية لاستنتاج ما إذا كان قديمًا أم لاء فكلما كان أقصر كلما زاد احتمال كونه قديمًا. 
ومع ذلك في هذا التحليل» أنا مهتم بشكل خاص بنقشات motifs‏ الحمض النووي القديمة بغض النظر 
عن طول التسلسل. لذلك سأقوم بتحليل التسلسلات القديمة والحديثة الطويلة على حد سواء وأترك 
معلومات طول التسلسل كمكافأة ممتعة يمكن للجميع استخدامها بالإضافة إلى معلومات النمط القديم. 
نظرًا لأنني سأستخدم عينة الحمض النووي الفرنسية الحديثة التي تم تسلسلهاني عام 2010 بطول قراءة 
يساوي 76 «nt‏ سأختار فقط 76 nt‏ من متواليات الإنسان البدائي Neanderthal‏ طويلة ثم كمية 
متساوية من التسلسلات الحديثة لتدريب CNN‏ الخاص بي. 


# Extract 76 nt ancient DNA 8 
neand seqs - [] 
ipe J um rance (UL ia 
iter - neand.fetch('chr' -* str(j)) 
EOE L boy LESTE 
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E taimer دعنك‎ EAE) == 763 
S = str(i.get forward 5242029262 00 
i 5 COURE LA EO 5ك كك‎ eote CS cue. S eoe GLO 
amel Sn COLAC (TIYE enel ME MoE Ln S5 
neand seqs.append(i.get forward sequence ()) 


# Read modern DNA sample 
modern - 
pysam.AlignmentFile("/home/nikolay/WABI/Misc/AncientDNA/French.bam" 
Usi 
modernisegs =N 
EOE J in cawe Gyi : 
iter - modern.fetch("chr" -* str(j)) 
EGE 3L dim? ESE 


abb len 0115622 segs) == hex اوعس‎ Sece) s 
break 

else: 
S > SEE (4 germeorwandsgesegquenee 


E 5 COUME AZO ARGS 5 جين مت‎ CI ZOU كت‎ (s orexoxbuaue (t (6) 9:0) 
amel SCONE (40 249) AAC NYS mog ia S3 
modern seqs.append(i.get forward sequence()) 
Sequences = neand seqs -* modern seqs 
labels = listing One Senne and Sega) NE 
list(np.zeros(len(modern seqs))) 


في المجموع» حصلنا على ما يقرب من نصف مليون قراءة» 7.50 منها قديمة. من أجل البساطةء اخترت 
ما يقرأ فقط من أول 10 كروموسومات. هذه الكمية من البيانات كبيرة G>‏ مقارنة بحوالي 60000 
مثال من مجموعات CIFAR10; MNIST obh‏ للتعلم الآلي المستخدمة على نطاق واسع 
لممارسة التعرف على الصور باستخدام شبكات CNN‏ 


تحضير بيانات الجينوم لشبكة CNN‏ 

بعد ذلك. سنقوم بإجراء قياسي لجميع خطوات 0101115 أحادية الأبعاد مثل ترميز التسلسلات الواحد 
ساخن one-hot encoding‏ وتقسيم البيانات إلى مجموعات فرعية للتدريب والاختبار. هنا سأتبع 
البروتوكول من )2019( Zou et al. Nature Genetics 51, pages12—18‏ : 


from sklearn.preprocessing import LabelEncoder, OneHotEncoder 


# One-hot encode Sequences 

integer encoder = LabelEncoder () 

one hot encoder - OneHotEncoder() 

Hayne Features = [] 

for sequence in sequences: 
integer encoded = integer encoder.fit transform(list (sequence)) 
integer encoded - np.array(integer encoded).reshape(-1, 1) 
one hot encoded - one hot encoder.fit transform(integer encoded) 
input features.append(one hot encoded.toarray()) 


np.set printoptions (threshold-40) 
input features = np.stack(input features) 
pound EampleSseduenceiUmmmm 255525-5-555 ينا‎ 
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print('DNA Sequence £1:Mn',sequences[0][:10],'...', 52522601] 
EOD 
print ('One hot encoding of Sequence #l1:\n',input features[0].T) 


4 One-hot encode Labels 

one hot encoder - OneHotEncoder() 

labels = np.array(labels).reshape(-1, 1) 

input labels - one hot encoder.fit transform(labels).toarray() 
print('Labels:Mn',labels.T) 

print('One-hot encoded labels: Nn',input labels.T) 


from sklearn.model selection import train test split 
train features, test features, train labels, test labels - 
Ereim S SP E 

input features, input labels, test size-0.25, random state-42) 


الآن كل شيء جاهز لتنفيذ CNN‏ فلنقم بذلك! 


بناء وتنفيذ مصنف CNN‏ احادي البعد 

eel‏ حان الوقت لبدء تدريب مصنف ثنائي بسيط 1D CNN‏ (قديم ancient‏ مقابل غير قديم 
.(non-ancient‏ سوف أقوم بصنع i‏ بسيطة من AES‏ واحدة تشبه VGG‏ مع طبقتين تلافيفيتين 
متبوعة بطبقة Max Pooling‏ واحدة. سأطبق أيضًا تنظيمًا صغيرًا لوزن معيار L1‏ لمنع الضبط الزائد 
.overfitting‏ 


from keras.optimizers import SGD, Adam, Adadelta 

from keras.layers import Conv1D, Dense, MaxPoolinglD, Flatten 
from keras.models import Sequential 

from keras.regularizers import 12, 11 


model = Sequential )( 


model zevelel(etoxssdUD (Grand euesy = S02, kernel size = 5; j9exelehbae; = "sine". 
Cerne nie lalize E = Me Tiron" p 

input shape-(train features.shape[1], 4), 
eveipasweheno = relvi, 
kernel regularizer-12(0.001))) 


model .eveleltetosssdUD (Grarl ues) = S02, kernel size = 5, addin = "sens". 
Kennel 221 11911262 = Me OTT, 
activation = 'relu', 


kernel regularizer-12(0.001))) 
model.add(MaxPoolinglD(pool size - 2)) 


model.add(Flatten()) 
model.add(Dense(16, kernel initializer- 'he uniform', activation - 
'relu', 


Kennel EegU lar Ize F12 (O. OOD) 
model.add (Dense (2, activation-'softmax')) 


epochs = 200 
lrate = 0.001 
decay = lrate / epochs 
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SGD(lr = lrate, momentum = 0.9, decay = decay, nesterov =‏ = موه 
False)‏ 

model.compile(loss-'binary crossentropy', optimizer-sgd, 
metrics-['binary accuracy']) 


model.summary() 
convid 29 input: InputLayer 
convld 29: ConvID 


convId 30: Conv1D 


max poolingld 15: MaxPoolingID 


flatten. 13: Flatten 


1D CNN لمصنف‎ VGG تشبه‎ à 


جهاز الكمبيوتر المحمول الخاص بي باستخدام 4 انوية. دعونا نتحقق من سلوك منحنيات الخطا loss‏ 
والدقة :accuracy‏ 


Model Loss 


pix — Train 


— Validation 


0525 


Mw AL Mss s Wua‏ باسنا 
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Model Accuracy 


osso 
— Train 
——- Validation 


0835 


0830 


Accuracy 


0825 


oss 


0 5 5 5 us 3 02 E 


E 
Epoch 


من الواضح أن النموذج غير مناسب ولكنه لا يزال يصل إلى 84 ./ من الدقة المثيرة للإعجابفي مجموعة 
بيانات التحقق (حوالي 100000 تسلسل). يعتبر السلوك المتذبذب لمنحنيات التحقق من الصحة 
نموذجيًا لتنظيم معيار .(L1 norm regularization) L1‏ لجعلها أكثر استقرارّاء يفضل التسرب 
«Dropout‏ یمکننا Cal‏ زيادة حجم الدفعة batch size‏ أو تقليل معدل التعلم .learning rate‏ دعونا 
الآن نجري التقييم النهائي للنموذج على مجموعة بيانات الاختبار الثابتة مع ما يقرب من 133000 


from sklearn.metrics import confusion matrix 
import itertools 


plt.figure(figsize-(10,8)) 

predicted labels = model.predict(np.stack(test features)) 

cm = confusion matrix(np.argmax(test labels, axis-1), 
np.argmax(predicted labels, axis-1)) 

print('Confusion matrix: NAL, CM) 


cm = cm.astype('float') / cm.sum(axis = 1)[:, np.newaxis] 

plt.imshow(cm, cmap-plt.cm.Blues) 

plt.title('Normalized confusion matrix') 

PE COO E Dae 

plt.xlabel('True labeli) 

plt.ylabel('Predicted label') 

jolis segs, LID; gle: vercek EQ. 31) 

joie s oj OO E V) 

for i, j in itertools.product(range (cm.shape[0]), 

range(cm.shape[1])): 

e cenel s sonnes lea Il o2 y 

horizontalalignment-'center', 
color-'white' if cm[i, j] » 0.5 else 'black') 


plt.show() 


تسلسل: 


133 8( التعلم العميق على الحمض النووي القديم 


Scores > model.evaluate(test features, test labels, verbose-0) 
1 


9. 


prunuAceusaecy: S255 2 seoresqtgst 0990) 


Normalized confusion matrix 


Predicted label 


True label 


التقييم النهائي للنموذج يظهر مرة أخرى 7/84 من دقة التنبؤ بالحالة القديمة. مصفوفة الارتباك 
confusion matrix‏ تؤكد هذا الرقم. ماذا عن تفسير PCNN‏ تعد خرائط Saliency‏ طريقة أنيقة 
لإثبات أهمية ميزات شبكة CNN‏ أي ما هى النيوكليوتيدات الأكثر إفادة للتنبؤ بالحالة القديمة لكل 
"M‏ 


import keras.backend as K 


def compute salient bases(model, x): 

input tensors - [model.input] 

gradients - model.optimizer.get gradients (model.output[0][1], 
model.input) 

compute gradients - K.function(inputs - input tensors, outputs 
= gradients) 


x value = np.expand dims (x, axis-0) 

gradients > compute gradients([x value]) [0][0] 

sal > np.clip(np.sum(np.multiply(gradients,x), axis-1),a min-0, 
a max-None) 

return sal 


sequence index - 12 
K.set learning phase(1) #set learning phase 
sal = compute salient bases(model, input features[sequence index]) 


plt.figure(figsize-[1606,5]) 
barlist = plt.bar(np.arange(len(sal)), sal) 
BEE LSE ECS Color (CUL) kor ab in rence 9 9) 1 
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plt.xlabel('Bases') 

plt.ylabel('Magnitude of saliency values') 

plt.xticks (np.arange(len(sal)), list(sequences[sequence index])); 

plt.title('Saliency map for bases in one of the ancient sequences' 
' (orange indicates the informative bases in motif)'); 

plt.show() 


Saliency map for bases in one of the ancient sequences (orange indicates the informative bases in motif) 


0.02 
001 l 
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LAM Ea -i mm m 
TGTATGCATATTATTGTACCTTCTCTGCTACAAAATATATTCCTTTGTCCTAAGGTGTGTTACAAAGAACATTAGA 


Magnitude of saliency values 


نرى بوضوح أن الإشارة القديمة مقابل غير القديمة يبدو أنها تأتي من نهايات التسلسلات. هذا منطقي 
للغاية لأنه من المعروف أن نهايات التسلسلات القديمة تتعرض لإزالة الحامض الأميني وبالتالي تحلل 
مما يؤدي إلى زيادة تواتر تعدد الأشكال C/T‏ و gG / A‏ نهايات القراءات مقارنة LAA‏ العدم 
null-hypothesis‏ من التردد الموزع بشكل موحد لجميع البدائل الأخرى. هذا ما يلتقطه 
mapDamage‏ ومع ذلك. على النقيض من cmapDamage‏ تمكنا من اكتشاف هذا النمط الخفي 
لإزالة الحامض الاميني دون مقارنة التسلسلات القديمة بالجينوم المرجعي. علاوة على ذلك لدينا الآن 
نموذج يتشا ب "القديم أو غير القديم' لكل قراءة بينما يستخدم mapDamage‏ الاستدلال الإحصائي 
statistical inference‏ من خلال حساب المتوسط عبر آلاف القراءات. 


dale‏ من الصعب جدًا استخراج الكثير من الحمض النووي القديم لذا فإن كل قراءة مهمة. بمعنى 
o2‏ لا يمكننا تحمل حساب الإحصائيات عبر عدد من القراءات ولكننا نريد حالة قديمة لكل قراءة 
قيمة. بالإضافة إلى ذلك غالبًا ما يتوصل تحليل الميكروبيوم القديم ancient microbiome‏ 
(القراءات التي نشأت من الميكروبات القديمة بدلاً من المضيف البشري / الحيواني) إلى فيروسات 
قديمة تحتوي عادة على عشرات القراءات المتوافقة مع الجينوم الفيروسي الاير E‏ هذه الحالق 
من الصعب للغاية إجراء تحليل إزالة الحامض الأميني باستخدام mapDamage‏ بسبب نقص القوة 
الإحصائية Jack of statistical power‏ 


ألا قات 


هنا أوضح أهمية التعلم العميقني مجال أبحاث الحمض النووي القديم. لقد أوضحت كيفية إنشاء 
مصنف بسيط للشبكة العصبية التلافيفية (CNN)‏ للحالة القديمة مقابل الحالة غير القديمة لكل 
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تسلسز DNA‏ بدون جينوم مرجعي. آمل أن تجد هذا المنشور nw‏ وأن تحصل على مصدر إلهام 
لتطوير التعلم العميق لمنطقة أبحاث الحمض النووي القديمة المثيرة. تحقق من نوتبوك Jupyter‏ 
الكامل على github‏ الخاص بي. 


المصدر: 


https://towardsdatascience.com/deep-learning-on-ancient-dna- 


df042dc3c73d 
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Deep Learning for Single التعلم العميق لبيولوجيا الخلية المفردة‎ (9 
Cell Biology 

(حل البنى الخلوية عن طريق التعلم العميق) 
هذه هي المقالة الثانيةفي سلسلة التعلم العميق لعلوم الحياة -Deep Learning for Life Sciences‏ 
في السابق» أوضحت كيفية استخدام التعلم العميق Deep Learning‏ على الحمض النووي القديم 
Ancient DNA‏ حان الوقت اليوم للحديث عن كيف يمكن للتعلم العميق أن يساعد بيولوجيا الخلية 
Cell Biology‏ التقاط تنوع diversity‏ وتعقيد complexity‏ مجموعات الخلايا. 


أحدث تسلسل الحمض النووي الريبي أحادي الخلية Single Cell RNA sequencing‏ 
GcRUNAseq)‏ ثورةفي علوم الحياة قبل بضع سنوات من خلال تقديم دقة غير مسبوقة لدراسة التباين 
heterogeneity‏ مجموعات الخلايا. كان التأثير دراماتيكيًا لدرجة أن مجلة Science‏ أعلنت أن 
تقنية scRINAseq‏ هي الاختراق لعام 2018. كان التقدم الرئيسي هو إدراك أنه على الرغم من أن 
الخلايا البيولوجية قد تبدو متشابهة شكليّافي المجهر. إلا أنها يمكن أن تكون مختلفة جد من حيث 
الجينات التي تعبر عنهاء والتي يؤدي بدوره إلى اختلافات وظيفية بين الخلايا. لالتقاط هذا التنوع 
الخلوي «cellular diversity‏ أعلن مجتمع Human Cell Atlas‏ عن هدف طموح لبناء خريطة 
شاملة لتريليونات الخلايا الموجودةفي جسم الإنسان. 


مع تطوير منصة التعبير الجيني gene expression‏ للخلية المفردة 10X Genomics‏ » أصبح من 
المعتاد تقريبًا الحصول على معلومات كاملة عن النسخ transcriptome information‏ من مئات 
الآلاف وحتى ملايين الخلايا الفردية. لذلك n) scRINAseq ob‏ إلى جنب مع التصوير الطبي 
الحيوي Biomedical Imaging‏ وعلم الجينوم (Genomics‏ تمثل حالیًا بيانات كبيرة حقا تتمتع 
بقوة إحصائية فائقة وتفتح GUT‏ جديدة لتطبيق التعلم الآلي والعميق لتحليل بيانات الخلية المفردة 
-Single Cell data analysis‏ 


سأقدم هنا نظرة عامة موجزة عن الحقل» وصياغة التحديات التحليلية الرئيسية وإظهار RAS‏ استخدام 
التعلم العميق مع TensorFlow; Keras‏ لمشاكل التعلم غير الخاضعة للإشراف unsupervised‏ 
learning problems‏ تحليل بيانات تسلسل الحمض النووي الريبي أحادية الخلية single cell‏ 
.RNA sequencing data analysis‏ 


لماذا pici‏ البيولوجيا الخلية المفردة مثالية fo.Lc LU‏ العميق؟ 

عند إجراء تحليل إحصائي على بعض البيانات» يتعين علينا عادة فهم التوازن بين Å‏ عدد الميزات 
p (number of features)‏ (الجينات «genes‏ والبروتينات «proteins‏ والمتغيرات الجينية 
.genetic variants‏ بكسل الصورة pixel of an image‏ وما إلى 305(« و ب) عدد الملاحظات 
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sequences التسلسلات‎ «cells الخلايا‎ «samples (العينات‎ n (number of observations) 
م من جينات ترميز البروتينفي حين أن‎ = 20K إلخ.). يحتوي الجينوم البشري على ما يقرب من‎ 
خلايا وحيدة.‎ n 2M مجموعات بيانات 250121148356010 المنشورة مؤخرًا تتضمن 1.31/1 ^ 1 و‎ 
وهو حد نموذجي للتعلم العميق. أي بالعملفي هذا الحد‎ scRNAseq ل‎ n << p هذا يتضمن أن‎ 
QUAD والتقاط البنية غير الخطية‎ Linear Algebra يمكننا تجاوز التحليل القائم على الجبر الخطي‎ 

.scRNAseq بيانات‎ 


**; nature ms 


Fig. 2: Identifying the major cell types of mouse organogenesis. 


Froe The siege “cell t x apc of mammalian o 


naturereseamh — i nvo 


تشير الدراسات الحديثة إلى أحجام عينات غير مسبوقة من scRINAseq‏ والتي تعد إعدادًا مثاليًا 
dendi lac‏ 

بالنسبة للحدود الأخرىء أي عندما تكون n >> p‏ أو an ~ p‏ تكون الأطر الإحصائية البايزية والمتكررة 
Bayesian and Frequentist statistical frameworks‏ على التواليء أكثر ملاءمة. بعبارة أخرى. 
عند العمل مع بيانات sscRINAseq‏ لدينا مشكلة مهمة:في حين أن الضبط الزائد overfitting‏ وعدم 
القدرة على التعميم generalizability‏ من الاهتمامات الشائعةفي علم الأحياء الحسابي 
Computational Biology‏ . هنا بالنسبة ل Ue . scRINAseq‏ الانتباه إلى الضبط الناقص 
.underfitting‏ أي كيفية استخدام معظم البيانات. 


ليس فقط scRINAseq‏ يزدهر حاليّافي علوم الحياة ولكن أيضًا التقنيات التي تقدم أنواعًا أخرى من 
المعلومات (3OMICS)‏ مصطلحات المعلوماتية الحيوية) على مستوى خلية واحدة أصبحت أكثر 
شيوعًا. esl‏ التطورات الحديثةفي دراسة مناطق الوصول إلى الكروماتين chromatin accessibility‏ 
regions (ScATACseq)‏ إلى مجموعات بيانات تحتوي على أكثر من 100 ألف خلية وحيدة.في 
حين أن scATACseq‏ وحده لا يمكن أن يضمن طريقة جديدة لاكتشاف مجموعات الخلايا النادرة 


التعلم العميق واستخداماته في المعلوماتية الحيوية 138 


rare cell populations‏ (هدف أساسي لتحليل بيانات الخلية المفردة)ء فإنه يوفر إمكانات هائلة 
للتكامل مع scR.NAseq‏ وبالتالي تحسين دقة تعيين الخلايا لمجموعة معينة من السكان. 


E 


Cell | nd 
^ rete Atlas of In Vivo Mammalian Chromatin | " eu. ویو‎ - 
© Ww... B ¥ 
^ Ld > p 
e e 1 
* 


Fig. 1: Multimodal and integrative methods for single-cell analyses. 


^ Detaset dives yon et c yes ond conos 
heran raa ant dosancs 


porem مكملة لتحليل‎ CATACseq) 3b 5 SII Ts pn? 


single cell multi-OMICs أحادية الخلية المتعددة‎ OMICs لا تصل تقنيات‎ es 
وما إلى ذلك)» أي مصادر المعلومات المتعددة من‎ scNM Tseq و‎ CITE-seq) technologies 
ولكنها واعدة جد‎ scRINAseq نفس الخلايا البيولوجيةء إلى أحجام عينات ضخمة نموذجية ل‎ 
-Deep Learning المستقبلية مع التعلم العميق‎ Data Integration لتحديات تكامل البيانات‎ 


تقليل الأبعاد باستخدام التعلم العميق 

نظرًا لأن الهدف الأساسي لتحليل scRINAseq‏ هو اكتشاف مجموعات الخلايا الجديدةء فهو تحليل 
غير خاضع للإشرافني مصطلحات التعلم الآلي. ومن ثم فإن أهم طريقتين تحليليتين مستخدمةفي 
scRI:NAseq‏ هما تقليل الأبعاد dimensionality reduction‏ والتكتل clustering‏ المشفرات 
التلقائية Autoencoder‏ هي شبكة inas‏ اصطناعية Artificial Neural Network (ANN)‏ 
غير خاضعة للإشراف مع بنية "الفراشة butterfly‏ " ذات المظهر المسل والتي غالبا ما تستخدم لتقليل 
الأبعاد. على عكس التقنيات الخطية مثل تحليل المكونات الرئيسية Principal Component‏ 
«Analysis (PCA)‏ رو التحجيم متعدد الأبعاد «Multi- Dimensional Scaling (MDS)‏ وتحليل 
العامل Factor Analysis (FA)‏ وما إلى 05( تقوم المشفرات التلقائية بتقليل الأبعاد غير الخطية 
non-linear dimensionality reduction‏ وبالتالى يمكنها التقاط بنية غير خطية للغاية لبيانات 
الخلية المفردة. l‏ 


139 9( التعلم العميق لبيولوجيا الخلية المفردة 


هم © © هو 9 9 .06 09 ee‏ 


B. هر‎ © 


Coo 


aaa 
"الفراشة"‎ 15 (ANN) هو عبارة عن شبكة عصبية اصطناعية‎ Autoencoder 


سأوضح هنا الاختلاففي دقة الخلية المفردة بين تقنيات تقليل الأبعاد الخطية (PCA)‏ وغير الخطية 
(Autoencoder)‏ باستخدام مجموعة بيانات GCITEseq scR:NAseq ~ 8K‏ دم الحبل السري 
(CBMCs)‏ كمثال. يرجى ملاحظة أن الكود أدناه يفترض أن ملف الإدخال بتنسيق جدولي tabular‏ 
format‏ مع وجود الجينات كأعمدة وخلايا كصفوف. ويجب أن يكون العمود الأخير من الملف عبارة 
عن تعليق توضيحي للخلية تم الحصول عليه باستخدام تقنية تجميع scR.NAseq ) scRINAseq‏ 
(clustering‏ المفضلة لديك. أوصي باستخدام التجميع المستند إلى الرسم البياني graph-based‏ 
8 مع اكتشاف مجتمع Louvaine‏ « وهو قوي للبيانات عالية cle‏ ويتم تنفيذهفي سير 
عمل Seurat scR.:NAseq‏ الشهير. 


import numpy as np 

import pandas as pd 

from keras.layers import Dense 

imoore macploclib كد غات لاتوت‎ jolt 

from sklearn.manifold import TSNE 

from keras.optimizers import Adam 

from sklearn.decomposition import PCA 
from keras.models import Sequential, Model 


# READ AND LOG-TRANSFORM DATA 

expr = pd.read csv('MouseBrain 10X 1.3M.txt',sep-'Nt') 
X = expr.values[:,0: (expr.shape[1]-1)] 

M expr.values[:,expr.shape[1]-1] 

X iav LECK ur dL) 


4 REDUCE DIMENSIONS WITH PRINCIPAL COMPONENT ANALYSIS (PCA) 
jo E e U 
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o iE  عيط 2022106 A y erain = K‏ عنام 1 erenn = PCA COMOONER ES = iab‏ در 
y traim, mmeg =‏ ك € pilt SEALE EEA, Oly ss EEE, d];‏ 
'tab20', s - 10)‏ 

plt.title('Principal Component Analysis (PCA) ') 

plt.xlabel (LEC) 

plt.ylabel("PC2") 


# REDUCE DIMENSIONS WITH AUTOENCODER 


model = Sequential )( 

model.add(Dense(30, activation-'elu', 
input shape-(n input,))) 

model.add(Dense(20, activation-'elu')) 
model.add(Dense activation-'elu!')) 


( (10 

(Dense (2, activation-'linear', name-"bottleneck")) 
model.add(Dense(10, activation-'elu!')) 

(Dense (20 activation-'elu')) 

( (30, 


model.add(Dense activation-'elu')) 
model.add(Dense(n input,  activation-'sigmoid')) 

model.compile(loss = Mean squared error', optimizer = Adam()) 
Toce o ties الت عع‎ x tEAM, Baten Size = 2e, epochs = S00, UES 
= 1) 


ncoder - Model(model.input, model.get layer('bottleneck').output) 
bottleneck representation - encoder.predict(x train) 
piteSscatievibsusllenecerepresenmeatsonim e 
bottleneck representation[:,1], 

y tiain; 8 = 10, CES = E20)‏ = يج 

plt.title('Autoencoder: 8 Layers') 
plt.xlabel("Dimension 1") 
plt.ylabel("Dimension 2") 


للمقارنة» سأضيف Us‏ مخطط تضمين Stochastic Neighbor Embedding (SNE)‏ الموزع 
على شكل حرف ct‏ وهو عبارة عن تقنية تقليل الأبعاد غير الخطية القياسية الذهبية الحاليةفي منطقة 
-scRINAseq‏ تتمثل إحدى مشكلات SINE‏ أنه لا يمكنه التعامل مع البيانات عالية الأبعاد مثل 
.scRINAseq‏ لذلك. تتمثل الممارسة الشائعةفي إجراء PCA‏ (خطي!) كتخفيض مسبق للأبعاد 
وتغذية الإخراجني SNE‏ ومع ذلك يمكننا القيام بذلك بشكل أفضل من خلال إجراء خطوة تقليل 
الأبعاد المسبقة بطريقة غير خطية باستخدام المشفر التلقائي. دعونا نعرض مخططات tSNE‏ لكلا 


الاستراتيجيتين: 


# TSNE ON PCA 
model tsne - TSNE(learning rate - 200, n components - 2, 
Eandeomn Seate > L2, 

perplexity = 90, n irer = 1000,7 2565 = 1L) 


tsne = model tsne.fit transform(x train) 
plt 6ه‎ 85532 (ESSE, Ol, caeli; il]; d = y trein, cmap = EO, s 
= 9) 


plt.title('tSNE on PCA') 
plt.xlabel("tSNE1") 
plt.ylabel("tSNE2") 


4 TSNE ON AUTOENCODER 
model = Sequential )( 
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model.add(Dense(10, activation = 'elu', 

input shape- (X.shape[1],))) 

model.add(Dense(8, activation = 'elu')) 
model.add(Dense(6, activation — 'elu')) 

model.add (Dense (4, activation = 'linear', name = 
"bottleneck")) 

model.add(Dense(6, activation = 'elu')) 
model.add(Dense(8, activation — 'elu')) 
model.add(Dense(10, activation = 'elu')) 
model.add(Dense(X.shape[1], activation = 'sigmoid')) 
model.compile(loss = 'mean squared error', optimizer = Adam()) 


Tocallo ETE, X5 Baten Size = MG, (yovexelms. = LOU, Smile = Twe, 
verbose = 1) 

ncoder - Model(model.input, model.get layer('bottleneck').output) 
bottleneck representation = encoder.predict (X) 


model tsne auto - TSNE(learning rate - 200, n components - 2, 
iramdomgsiba ee - L2, 

perplexity = 90, m iter = 0007 sedere = 1 
tsne auto - 
model tsne auto.fit transform(bottleneck representation) 
joli gcarter (tene suos; Ol; tene ECO, lo € 2 X, eme = 
'tab20', s > 10) 
plt.title('tSNE on Autoencoder: 8 Layers!) 
plt.xlabel("tSNEl") 
plt.ylabel("tSNE2") 


Principal Component Analysis (PCA) Autoencoder: 8 Layers 


عم 
1 
Dimension 2‏ 
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5 neu P f 
إذا لم تكن معتادًا على النظر إلى هذا النوع من المخططات. فهنا نقطة واحدة هي خلية واحدة والألوان‎ 
تتوافق مع أنواع مختلفة من الخلايا. من المفترض أن تراقب 12 خلية من الخلايا ولكن لا يمكنك‎ 
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رؤيتها بشكل أساسى (تتداخل الخلايا بشكل كبير (cells heavily overlap‏ من مخطط PCA‏ لأن 
تقليل الأبعاد loo og 2 al‏ يد edi‏ المفردة. تبدو صورة المشفر التلقائي أفضلء ويمكن 
اكتشاف مجموعات الخلايا المختلفة بوضوح. يوفر SINE‏ بشكل عام نقط خلية أكثر وضوحًا. ومع 
ذلك. بالنسبة لهذه الحالة بالذات» يبدو أن tSINE‏ على المشفر التلقائى يوفر مجموعات أكثر كثافة 
وشفافية خاصة بالنسبة لمجموعة الخلايا الأرجواني التي تم gas dies‏ أنحاء الكتلة الزرقاءفي 
25 على مخطط PCA‏ وبالتالي» يعد التعلم العميق dels‏ لتحسين دقة اكتشاف مجموعات 
الخلايا الجديدة. 


البحث عن تقليل الأبعاد القابل للقياس 

بالإضافة إلى صعوبة التعامل مع البيانات عالية الأبعاد. فإن مقياس SNE‏ سيئ عندما يصل عدد 
الخلايا إلى مئات الآلاف والملايين. FItSNE‏ هو تعديل جديد واعد ل Barnes-Hut tSNE‏ والذي 
يبدو أنه يتسع بشكل أفضل لكميات كبيرة من البيانات. ومع ذلك عند تشغيل FItSNE‏ على 1.3 
مليون خلية دماغيةفي UII‏ واجهت مشاكلفي تركيبهاني الذاكرة. على وجه الخصوصء كنت أرغبفي 
الحصول على مخططات tSNE‏ لارتباكات perplexities‏ عالية من أجل التحقق من الهيكل العالمي 
للبيانات. ومع ذلك كان الارتباك (perplexity)‏ = 350 هو الحد الأقصى من الارتباك الذي تمكنت 
من الوصول إليه باستخدام عقدة ذات ذاكرة وصول عشوائي (RAM)‏ بسعة 256 جيجابايت على 


مجموعة الكمبيوتر. يعد تشغيل 11651715 أمرًا بسيطًا للغاية ويشبه الطريقة التي تؤدي بها R GtSNE‏ 
(مرة أخرى. يحتوي عمود الكتلة Cluster column‏ على التعليقات التوضيحية للخلية): 


library("data.table") 

Soie cr FASE SNe E) 

expr «- 

suppressWarnings (as.data.frame(fread("10X Mouse Brain 1.3M.txt",sep 

z"NE"))) 

my color«-as.numeric (as.character (expr$Cluster)) 

expr$Cluster«-NULL 

expr«-as.data.frame(t(expr)) 

N cells«-dim(expr) [2] 

print(pasteO("DATASET CONTAINS ",dim(expr)[1]," GENES AND 

v.m cells, Qum) 

tsne opt perp «- fftRtsne(t(logl0(expr-*20)),check duplicates-FALSE, 
perplexity-350,dims-2,max iter-5000) 

plot(tsne opt perp$Y,colemy color,xlab-"tSNEI",ylab-"tSNE2",cex-0.5 

) 


يعد التقريب والإسقاط المتشعب الموحد Uniform Manifold Approximation and‏ 
Projection (UMAP)‏ تقنية أخرى مثيرة للاهتمام للغاية لتقليل الأبعاد غير الخطية والتي يبدو أنها 
تتفوق Dlo‏ على GESINE‏ العديد من الجوانب. إنه أسرع من tSNE‏ بنفس سرعة FItSNE‏ ولكنه 
لا يتطلب قدرًاكبيرًا من الذاكرة, ويبدو أنه يلتقط كلاً من البنية المحلية والعالمية لبيانات -ScRI:NAseq‏ 
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ربما يكون العيب الوحيد الذي أراه هو الرياضيات غير الشفافة nontransparent mathematics‏ 
بعض الشىء وراء UMAP‏ التى أواجهها حاليًا. 


from umap import UMAP 

model = UMAP(n neighbors = 30, min dist = 0.3, n components = 2) 
umap - model.fit transform(X reduced) 

umap coords = pd.DataFrame(('UMAPl':umap[:, 0], 'UMAP2':umap[:, 
101139) 

umap coords.to csv('umap coords 10X 1.3M MouseBrain.txt', sep-'Nt') 
jolie Sete EUAN, Ol, Ol, di» e = X» cune = 529252057 5 — T) 
plt.title('UMAP') 

plt.xlabel (("UMAPI") 

plt.ylabel("UMAP2") 


تم مؤخرًا إصدار عدد قليل من الأساليب المثيرة للاهتمام استنادًا إلى Variational Autoencoders‏ 
أحدها هو 501715 وهي شبكة عصبية تلتقط وتصور الهياكل منخفضة الأبعادفي بيانات التعبير الجيني 
للخلية الوحيدة؛ بالإضافة إلى أنها تحافظ على كل من هياكل الجوار المحلية والعالمية. لتشغيل 
5 على 1.3 مليون خلية دماغيةني الفأ استخدمت سطر الأوامر التالي: 


ovcica Sevis krein -Caite meci sile TO: LSM te SOU QUE 
out scvis 

--data label file 10X 1.3M MouseBrain CellAnnotationSeurat.txt 
zxvenbosclevenbosecainmeenval S0 E olor 


أقدم أدناه مقارنة بين تقنيات تقليل الأبعاد الأربعة المذكورة. PCA ,J‏ و tSNE / FItSNE‏ و 
UMAP‏ و 501715 باستخدام خلايا دماغ M1.3 JUJl‏ من :10X Genomics‏ 


PCA, 10X Genomics 1.3M Mouse Brain Cells Autoencode- 10 Hidon Layers, 10X Genomics 1.3M Nouse Brain calls 


Dersin 2 
c 


36 -29 10 c 10 25 » 40 1s w s o s » 15 2 
Dirmersion 1 


FI 
UMA? 10X Genomics 1.3M Mouse Brain celis tSNE perplexity = 350, 19X Genomics 1.3M Mouse Brain cells 


tene 2 
> 


M - M v 7 - - H B * * 
-15 -10 RA H 5 -80 مف مه‎ -20 0 20 40 «o 


مقارنة الكروماتين لتقنيات الحد من الأبعاد على مجموعة بيانات دماغ الماوس M 10X1.3‏ 
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بالنسبة لحالة oel CITEseq‏ يمكننا هنا أن نرى أنه على عكس PCA‏ فإن تقنيات تقليل الأبعاد 
غير الخطية SCVIS)‏ و UMAP‏ و (SNE / FIISNE‏ قادرة على حل جميع مجموعات الخلايا 
في بيانات scRINAseq‏ من بين التقنيات الثلاثةء كان UMAP‏ هو الأسرع وقدم تمثيلًا منخفضًا 
Doa‏ للبيانات. لكي نكون أكثر دقة حول الأوقات الحسابيةء استغرق 5075715 حوالي 6 ساعات» 
واستغرق 3 FINE‏ ساعات والكثير من الذاكرة» استغرق UMAP‏ حوالي 3 ساعات على جهاز 
الكمبيوتر المحمول الخاص بي. 


مع الأخذني الاعتبار الكميات المتزايدة من بيانات iscRINAseq‏ أتوقع أن يحل UMAP‏ 
Autoencoders;‏ محل GtSNE‏ المستقبل. 


المشفر التلقائي العميق ل scR.NAseq‏ مع Keras‏ 
duel‏ سأوضح هنا كيفية التنفيذ من البداية وتشغيل برنامج مشفر تلقائي عميق Deep‏ 
Autoencoder‏ باستخدام 5 . كما ستری» الأمر ليس بهذه الصعوبة. من أجل تجنب الصعوبات 
في تحميل مجموعة البيانات بأكملهاني الذاكرة» اخترت أفضل 19 مكوتًا رئيسيًا وجدت أنها مهمة من 
خلال إعادة التشكيل» أي خلط مصفوفة التعبير الجينى والتحقق من النسبة المئوية للتباين الموضحة 
بواسطة المصفوفة المضمنة permuted matrix‏ (فرضية العدم .(null hypothesis‏ خفضت 
المشفر التلقائى الأبعاد تدريجياً من 19 إلى 2 (عنق الزجاجة bottleneck‏ المشفر التلقائي). حيث 

كانت كل طبقة مخفية تقلل بعد واحدا. 

import numpy as np 
import pandas as pd 
from keras.layers import Dense 
import matplotlib.pyplot as plt 
from keras.optimizers import Adam 
from sklearn.decomposition import PCA 


from keras.models import Sequential, Model 
from sklearn.preprocessing import MinMaxScaler 


# READ DATA AND LOG-TRANSFORM DATA 


expr = pd.read csv('MouseBrain 10X 1.3M.txt', sep = 'Nt', header = 
None) 
X = expr.values[:,0: (expr.shape[1]-1)] 


X 
X 


expr.values[:,expr.shape[1]-1] 
wo E OEE SZ MOS Log E كك‎ L) J 


# REDUCE DIMENSIONS WITH PRINCIPAL COMPONENT ANALYSIS (PCA) 


im abajo = 39 

x train = PCA(n components = n input).fit transform(X) 
y crain cs 

x train - MinMaxScaler().fit transform(x train) 


i REDUCE DIMENSIONS WITH AUTOENCODER 
model = Sequential )( 
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model.add(Dense(18, activation-'elu', 
kernel tmrtializer= Ire. Tonantis OEM y 

input shape- (n input,))) 
model.add(Dense(17, activation-'elu', 
kermel imitielizer= he Umi Tom J) 
model.add(Dense(16, activation-'elu', 
Ke amel AME ELA LT Zer I Me UME EO EME Jl) 
model.add (Dense (15, activation-'elu', 
kernel initializer-'he uniform')) 
model.add(Dense(14, activation-'elu', 
kernel initializer-'he uniform')) 
model.add(Dense(13, activation-'elu', 
kernel initializer-'he uniform')) 
model.add(Dense(12, activation-'elu', 
kernel tmrtializer= ne Wn zoran) ) 
model.add (Dense (11, activation='elu', 
kernel initializer-'he uniform')) 
model.add(Dense(10, activation-'elu', 
kernel initializer-'he uniform')) 
model.add(Dense(9, activation-'elu', 
kernel initializer-'he uniform')) 
model.add(Dense(8, activation-'elu', 
kernel initializer-'he uniform')) 
model.add(Dense(7, activation-'elu', 
kernel initializer-'he uniform')) 
model.add(Dense(6, activation-'elu', 
kernel initializer-'he uniform')) 
model.add(Dense(5, activation-'elu', 
kernel initializer-'he uniform')) 
model.add(Dense(4, activation-'elu', 
kernelobmitraluxes-"'hevundcfonrm')) 
model.add (Dense (3, activation-'elu', 
kernel initializer-'he uniform')) 
model.add (Dense (2, activation-'linear', 
kernel imi eral izer Re UNE OEM, 


name-"bottleneck")) 


model.add(Dense(3, activation-'elu', 
kernel initializer-'he uniform')) 
model.add(Dense(4, activation-'elu', 
kernel initializer-'he uniform')) 
model.add(Dense(5, activation-'elu', 
kernel initializer-'he uniform')) 
model.add(Dense(6, activation-'elu', 
Kesme l AME ELA lT zer Me UNE EOE Jl) 
model.add (Dense (7, activation-'elu', 
kernel initializer-'he uniform')) 
model.add(Dense(8, activation-'elu', 
kernel initializer-'he uniform')) 
model.add(Dense(9, activation-'elu', 
kermel imitielkizer= hne UIE OEM J) 
model.add(Dense(10, activation-'elu', 
kernel tprtializer= Ne MEE O EMD) 
model.add (Dense (11, activation-'elu', 


kernel initializer-'he uniform')) 
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model.add(Dense(12, activation-'elu', 
kernel ME ial Zer Me MDE لست‎ )) 

model.add (Dense (13, activation='elu', 
kernel initializer-'he uniform')) 
model.add(Dense(14, activation-'elu', 
kernel initializer-'he uniform')) 
model.add(Dense(15, activation-'elu', 
kermel imitiekizesr= he UNLESS) 
model.add(Dense(16, activation-'elu', 
kernel Tpmrtializer= Ne URE O EME )) 

model.add (Dense (17, activation-'elu', 
kernel initializer-'he uniform')) 
model.add(Dense(18, activation-'elu', 
kernel initializer-'he uniform')) 
model.add(Dense(n input, activation-'sigmoid')) 
model.compile(loss = 'mean squared error', optimizer = Adam(lr = 
OOOO 

model.summary() 

4 FIT AUTOENCODER MODEL 


SEO = moel mit creim, x Cran, batch size = 4096, ل‎ = 
1:90) 

shuffle = False, verbose = 0) 
prime (UU Nia se aprecio nare HOSS: | Mistory HOUSES] loss“ IAN) 


plt.figure(figsize-(20, 15)) 

jolie plor ALS EOE MNE SEO MLS desi V 11 3) 
plt.title('Model Loss') 
plt.ylabel('Loss') 
plt.xlabel('Epoch') 

plt.show() 


ncoder - Model(model.input, model.get layer('bottleneck').output) 
bottleneck representation - encoder.predict(x train) 


# PLOT DIMENSIONALITY REDUCTION 
plt.figure(figsize-(20, 15)) 

pite scattemnibsusllenecemepresenmealsiontm lr 
bottleneck representation[:,1], 


C —-Y, S — 1, cmap -» 'tab20') 
plt.title('Autoencoder: 34 Hidden Layers, 10X Genomics 1.3M Mouse 
Brain Cells") 
plt.xlabel("Dimension 1") 
plt.ylabel("Dimension 2") 


. show () 
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Autoencoder: 34 Hidden Layers, 10X Genomics 1.3M Mouse Brain Cells 


Dimension 2 
e 
5 


-02 


-04 


— — -— E 


مشفر تلقائي عميق لتقليل الأبعاد لخلية دماغ الفأر «1.3M 10X‏ تنفيذ Keras‏ 


يمكننا أن نرى أن مجموعات الخلايا يمكن تمييزها GLS‏ على الرغم من أنني لم أحاول تحديدا العثور 
على التكوين الأمثل للشبكة العصبية التي من المحتمل أن توفر دقة أفضل. ميزة كبيرة للمشفر التلقائي 
العميق هي أنه يبدو سريعًا جد وبالتالي قابل للقياس scalable‏ للكميات الكبيرة من بيانات 
cscRINAseq‏ فقد استغرق الأمر دقيقتين فقط على الكمبيوتر المحمول الخاص بي حتى يتقارب 
converge‏ النموذج ويحصل على المخطط أعلاه. 


المشفر التلقائي ل scR:NAseq‏ مع TensorFlow‏ 
65 رائعة وسريعة وسهلة ولكنفي بعض الأحيان يكون لدي انطباع بأنني أتحكم في الشبكات العصبية 
بشكل أفضل باستخدام .TensorFlow‏ على سبيل EI‏ مع Y Keras‏ يمكن للمرء أبداً الشعور 
بالربط "يدويًا "manually‏ بين QUE‏ وهذا هو العمقفي الفهم الذي أقدر تحقيقه باستخدام 
TensorFlow‏ العيب البسيط لهذا الأخير هو أن خدعة مفيدة مثل التعلم على دفعات mini-3 x»‏ 
batch learning‏ يجب أن يتم ترميزها يدويّافي TensorFlow‏ ويتم تضمينها تلقائيّافي Keras‏ على 
النقيض من ذلك. على أي حال» إليك كود المشفر التلقائي العميق ومخطط تقليل الأبعاد: 
import numpy as np‏ 
import pandas as pd‏ 


import tensorflow as tf 
imoore 16و اتام 5ك لعزت لاك عالت‎ AS م‎ 
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X x ox EEE 

# DEFINE HYPERPARAMETERS 

learning rate = 0,001 

training epochs - 500 

mini batch size — 1024 mini batch size - X.shape[0]-1 
display step = 10 how often to display loss and 
accuracy 

num hidden 1 = 1 1st hidden layer num features 
num hidden 2 = 8 2nd hidden layer num features 
num hidden 3 - 4 3-d hidden layer num features 
num bottleneck = 2 bottleneck num features 

num input = X.shape[1] SCRANAseq data input (number of 
genes) 


# TENSORFLOW GRAPH INPUT 
x — tf.placeholder ("float") 
y ^ tf.placeholder ("float") 


weights = ( 


encoder MU: tf.Variable(tf.random normal([num input, 
num hidden 1])), 
'encoder h2': tf.Variable(tf.random normal([num hidden 1, 
num hidden 2])), 
'encoder h3': tf.Variable(tf.random normal([num hidden 2, 
num hidden 3])), 
'bottleneck':  tf.Variable(tf.random normal([num hidden 3, 
num bottleneck])), 
decoder MU tf.Variable(tf.random normal([num bottleneck, 
num hidden 3])), 
decoder h2': tf.Variable(tf.random normal([num hidden 3, 
num hidden 2])), 
'decoder h3': tf.Variable(tf.random normal([num hidden 2, 
num hidden 1])), 
'decoder out': tf.Variable(tf.random normal([num hidden 1, 
num input])), 
} 
biases = { 
encoder foii tf.Variable(tf.random normal([num hidden 1])), 
eneoder B2. tf.Variable(tf.random normal([num hidden 2])), 
'encoder b3': tf.Variable(tf.random normal([num hidden 3])), 
'bottleneck': tf.Variable(tf.random normal([num bottleneck])), 
decode rk onii tf.Variable(tf.random normal([num hidden 3])), 
"decoder DZ. tf.Variable(tf.random normal([num hidden 2])), 
decoder b3': tf.Variable(tf.random normal([num hidden 1])), 
'decoder out': tf.Variable(tf.random normal([num input])), 
j 
# CONSTRUCT AUTOENCODER MODEL 


print (M Noa! «s 3 4ت 2055222 6 عع عع كن‎ Model sss” T ا‎ 
def encoder (x): 
layer JL = rcf nn الات‎ (exe ecler menu اعد‎ weaken [rV exoxerexekese Miti) x 
biases['encoder b1'])) 
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layer 2 = tr Mn لالت‎ (ege SECO CEE MEL Hayer Ly 
weights['encoder h2']), 
Biases |  eneodeE 2] 
layer 3 = tf.nn.elu(tf.add(tf.matmul (LES 2, 
weights['encoder h3']), 
biases ERE OEE OS) 
bottleneck - tf.add(tf.matmul(layer 3, weights['bottleneck']), 
biases['bottleneck']) 
return bottleneck 


def decoder (x): 


Layee 1 = Er an elult eccL لضت‎ E, weights elexerorolese mii) p 
]ىه هادا‎ decoder OND 
layer 2 = طم‎ Mm عن الات‎ SECO (EE MESON (layer dbz 


weights['decoder h2']), 

Ipitassesiideceoderg 2] 
layer 3 - tf.nn.elu(tf.add(tf.matmul(layer 2, 
weights decoderch3:]97 


biases elexerorelese- 9159 [3 y 
layer out > tf.nn.sigmoid(tf.add(tf.matmul(layer 3, 
weights['decoder out']), 


biases['decoder out'])) 
return layer out 


ncoder op - encoder (x) 

decoder op - decoder (encoder op) 

Y pred - decoder op 

yO EE = د‎ 

COSE = EE eckes Mean (Ef )67م‎ 6202 = y Peed, 2)) 

optimizer < tf.train.AdamOptimizer(learning rate).minimize (cost) 


# START TRAINING AUTOENCODER 
preine (pU New de USE Treining 52236 nos M sp UNIS) 
my (oe = MH 
tf.set random seed(12) 
with tf.Session() as sess: 
sess.run(tf.global variables initializer()) 
for epoch in range(training epochs): 


pos = 0 
idx = np.arange(X.shape[0]) 
my Cost mimi Daten = [| 


for o in range (10000000): 
fprint('Mini-batch (0) = [(1)'.format(pos,pos -* 
mini batch size)) 


ik pos r mini batch size >= X. مهد هدام‎ 015 


break 
balen x = EX 292252 POS, POS u min boeten Sze) | 8] 
GL = Sess Tun [cost; م نه ارين ذادرة‎ Feed 8151:8855 {zs 


batch x]) 
my cost mini batch.append(c) 
joo = DOG sr MIRAE لات‎ Size 
my cost.append(np.mean(my cost mini batch)) 
ans (epoch ae 3b) د‎ cisplay step == (08 
jekestpauE(Mmpsoxelmg UU SUAS. x (agoen a db) 


E^ 
o1 
e 
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"Cost = " 7 
"(:.9f£]".format(np.mean(my cost mini batch))) 
prec = SESS. EUR ) 2250462 (53) p. eee diel X0) 

# PLOT LOSS FUNCTION 

plt.figure(figsize-(20, 15)) 
plt.plot(range(training epochs), my cost) 
plt.xlabel("Epoch",fontsize - 20) 
plt.ylabel("Loss",fontsize - 20, rotation - 1) 
plt.show() 

i VISUALIZE AUTOENCODER BOTTLENECK 
plt.figure(figsize-(20, 15)) 
pie SCEAEECE (BEESON, vexexelll endi] CG M sc db eng E 19219) 
plt.title('Autoencoder: 8 Hidden Layers', fontsize - 20) 
plt.xlabel("Dimension 1", fontsize - 20) 
plt.ylabel("Dimension 2", fontsize - 20) 
plt.show() 

Autoencoder: 8 Hidden Layers 

2 

0 

E] 
N 
ع‎ 
S 
n 
$ 
E^ 
a 


-2 0 2 0 7 4 6 8 
Dimension 1 


مشفر تلقائي عميق لتقليل الأبعاد لخلايا دماغ الفأر .1.3M 10X‏ تنفيذ TensorFlow‏ 


مرة أخرى» يبدو التمثيل منخفض الأبعاد els‏ مع بعض التغيير والتبديلفي التكوين والمعلمات الفائقة 
الأخرى» يمكن للمرء الحصول على دقة أفضل بكثير. مرة أخرى. بالنسبة إلى Keras‏ فإن تطبيق المشفر 
التلقائي العميق هذا سريع AUU‏ فقط بضع دقائق مقارنة بالساعات المستخدمة بواسطة FItSNE‏ و 
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UMAP‏ و 501715 لإنتاج هذا النوع من مخطط تقليل الأبعاد. إذا كانت هناك حاجة إلى إجراء إعادة 
التشكيل resampling‏ لسبب ما لتحليلك» فلن يكون ذلك ممكنًا للغاية مع FItSNE‏ و UMAP‏ و 
5 ولكن يجب أن يكون من السهل جدا تنفيذه باستخدام التعلم العميق. 

الانستنتاج 

لقد تعلمنا هنا أن تسلسل الحمض النووي الريبي أحادي الخلية (SCRINAseq)‏ يحسن بسرعة فهمنا 
للتنوع الوظيفي بين الخلايا البيولوجية. ربما يكون تقليل الأبعاد هو أهم ibl‏ تحليلية وراء تحليل 
scRINAseq‏ النموذجي. تواجه تقنية تقليل الأبعاد القياسية الذهبية Dl tSINE‏ صعوباتفي قابلية 
التوسع بسبب الكميات الكبيرة من البيانات التي تقدمها تقنيات scRINAseq‏ يوفر التعلم العميق عبر 
Autoencoder‏ و UMAP‏ حاليًا أكثر الطرق مرونة وقابلية للتطوير للحصول على تمثيلات منخفضة 
الأبعاد لبيانات scRINAseq‏ ومن المرجح أن يحل محل GtSNE‏ المستقبل. أخيرًاء تعلمنا كيفية 
تنفيذ المشفر التلقائي العميق لمجموعة بيانات scRNAseq‏ لخلايا دماغ الفأر العملاقة 10X‏ 


. TensorFlow و‎ Ķeras باستخدام‎ 1.3M Genomics 


المصدر: 


https://towardsdatascience.com/deep-learning-for-single-cell-biology- 
935445064438 
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Deep Learning for Data التعلم العميق لتكامل البيانات‎ (10 
Integration 

(التأثيرات التآزرية لتكامل البيانات مع التعلم العميق) 
هذه هي المقالة الثالثةفي سلسلة التعلم العميق لعلوم الحياة.في المنشورين السابقين» أوضحت كيفية 
استخدام التعلم العميق على الحمض النووي القديم والتعلم العميق لبيولوجيا الخلية المفردة. سنناقش 
الآنكيفية استخدام مصادر متعددة للمعلومات البيولوجيةء وبيانات OMICS‏ من أجل تحقيق نمذجة 
أكثر دقة للأنظمة البيولوجية عن طريق التعلم العميق. 


استفادت الأبحاث البيولوجية والطبية الحيوية بشكل كبيرفي العقد الماضي من التقدم التكنولوجي الذي 
يقدم تسلسل الحمض النووي (الجينوميات (genomics‏ والتعبير الجيني gene expression‏ 
(النسخ 65 وووفرة البروتين protein abundance‏ (البروتينات (proteomics‏ 
والعديد من المستويات الأخرى من المعلومات البيولوجية التي يشار إليها عادة باسم 01/1005. على 
الرغم من أن طبقات OMIC‏ الفردية قادرة على الإجابة على العديد من الأسئلة البيولوجية المهمة, إلا 
أن دمجها وتأثيراتها التآزرية synergistic effects‏ الناتجة عن تكاملها تعد برؤى جديدةفي سلوك 
الأنظمة البيولوجية مثل الخلايا والأنسجة والكائنات الحية. لذلك يمثل تكامل 1/1105 © OMICs)‏ 
2 التحدي المعاصرفي علم الأحياء Biology‏ والطب الحيوي Biomedicine‏ . 


في هذه المقالة سأستخدم التعلم العميق Deep Learning‏ مع Keras‏ وأظهر كيف أن تكامل بيانات 
95 المتعددة (multi-OMICSs data)‏ يكشف عن bus‏ مخفية غير مرئيةفي OMICs‏ 
الفردية. 

الخلايا المفردة تصنع البيانات الضخمة 

مشكلة تكامل البيانات data integration‏ ليست جديدة GLS‏ لعلوم البيانات. تخيل أننا نعلم أن 
شخصًا ما ينظر إلى صور معينة ويقرأ نصوصًا معينة ويستمع إلى موسيقى معينة. تعد الصورة والنص 
والصوت أنواعًا مختلفة جد من البيانات» ومع ذلك يمكننا محاولة دمج combine‏ هذه الأنواع من 
البيانات من أجل البناء على سبيل المثال نظام توصية recommender system‏ أفضل يحقق دقة 
أعلىني التقاط اهتمامات الشخص. بالنسبة إلى علم الأحياء والطب الحيوي. لم تصل فكرة تكامل 
البيانات إلى هنا إلا مؤخرًاء ومع ذلك فقد تم تطويرها بنشاط مع الزاوية البيولوجية مما أدى إلى العديد 
من المنهجيات المثيرة للاهتمام مثل mixOmics‏ و MOFA‏ وانصهار شبكة التشابه Similarity‏ 
Network Fusion (SNF)‏ و .OnPLS / JIVE / DISCO‏ شبكات بايزي Bayesian‏ 
Networks‏ إلخ. 
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Exploration OnPLS Uum 
MIX Intogration Networks 
Omıcs 2 in e 


Clustering of Clusters DISCO 


"* ** SIMILARITY NETWORK FUSION (SNF) ** +” 


إحدى المشكلات التي تواجهها جميع أساليب OMIC‏ التكاملية المذكورة أعلاه هي لعنة الأبعاد 
«curse of dimensionality‏ أي عدم القدرة على العملفي مساحة عالية الأبعاد مع عدد محدود من 
الملاحظات الإحصائية «statistical observations‏ وهو إعداد نموذجى لتحليل البيانات البيولوجية. 
هذا هو المكان الى تكرن فيه cos‏ اغف asbl‏ الخلية مقيدة V‏ لأنها تقدم مئات الآلاف 
وحتى الملايين من الملاحظات الإحصائية (الخلايا) كما ناقشناهافي المقالة السابقة» وبالتالي توفر 
بيانات كبيرة o‏ مثالية للتكامل .Big Data ideal for integration‏ 


CN م‎ << 


Genome Epigenome H Transcriptome i Proteome 


Single cell i O O OO 
genomics | HE 


CNV DNA methylation ;: i : 
SNP Histone modification ; ; RNA expression ; ; Protein expression : 
Chromatin ; ¦ RNA structure : 


Single cell i 
Multi-omics — | 


Per nim 3055) METS s«MT-Seq(Huetal2016)  CMEseq(Stoeckiusetal, | 
ller et al, 2016 scTrio- Hou et al., 2016 
[Macaulay etal, 2015 د‎ ) Seat ) 2017); REAP- 


تقنيات خلية واحدة متعددة -OMIC s‏ 


إنه لأمر مثير للغاية أن تقنيات الخلية المفردة متعددة OMIC‏ مثل CITEseq‏ و scNMT'seq‏ توفر 


مستويين وثلاثة مستويات من المعلومات البيولوجية «biological information‏ على التوالي من 
نفس الخلايا بالضبط. 
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تكامل بيانات CITEseq‏ مع التعلم العميق 
سنقوم هنا بإجراء تكامل غير خاضع للإشراف unsupervised integration‏ لبيانات النسخ 
165 لخلايا المفردة (scRINAseq)‏ والبروتيوميات GcProteomics)‏ من 
.CITEseq‏ 8 617 خلية أحادية النواة لدم الحبل السري cord blood mononuclear cells‏ 
(CBMC)‏ . باستخدام المشفر التلقائي Autoencoder‏ التي تناسب بشكل مثالي التقاط الطبيعة 
غير الخطية للغاية لبيانات 02/105 أحادية الخلية . لقد قمنا بتغطية مزايا استخدام المشفر التلقائي 
لبيولوجيا الخلية المفردةفي المنشور السابق» ولكن باختصار ترتبط بحقيقة أن تحليل الخلية المفردة غير 
خاضع للإشراف بشكل أساسي. نبدأ بتنزيل بيانات CITEseq‏ من هناء وقراءتها مع Pandas‏ وتحويل 
السجل .log-transforming‏ وهو ما يعادل تطبيعًا معتدل mild normalization‏ کالعادق 
الصفوف عبارة عن خلاياء والأعمدة هي mRNA‏ أو ميزات بروتينية .protein features‏ والعمود 

الأخير يتوافق مع شرح الخلية „cell annotation‏ 

import numpy as np 
import pandas as pd 
from keras.models import Model 
anges metrologio ASLO AS لدم‎ 
from sklearn.manifold import TSNE 
from keras.utils import plot model 


from keras.layers import Input, Dense 
from keras.layers.merge import concatenate 


SCRNAseq = pd.read csv('scRNAseq.txt',sep-'Nt') 
ScProteomics = pd.read csv('scProteomics.txt',sep-'Nt') 


X scRNAseq = scRNAseq.values[:,0: (scRNAseq.shape[1]-1)] 

Y scRNAseq = scRNAseq.values[:,scRNAseq.shape[1]-1] 

X SCErOEeOMI GS escbasorcomiesswvaluesitsemosceEroieonicesssapei DE 
YEScPrtoObeomiese-escProbveomiesmvaduesimsebsoteemiesimshape|s 


X scRNAseq - np.log(X scRNAseq * 1) 
X SCEFOECOMTLES = OO log لمق عات كام كد‎ m 1L) 


سنقوم الآن ببناء نموذج المشفر التلقائي مع 4 طبقات مخفية باستخدام Keras‏ الوظيفية API‏ يحتوي 
Autoencoder‏ على مدخلين» واحد لكل طبقة من المعلومات» أي «scProteomics; scRINAseq‏ 
ومخرجات مقابلة تهدف إلى إعادة بناء المدخلات. يتم تحويل طبقتي الإدخال input layers‏ بشكل 
خطي بشكل منفصل في الطبقة المخفية الأولى L) first hidden layer‏ يعادل تقليل أبعاد (PCA‏ قبل 
أن يتم تجميعهماني الطبقة المخفية الثانية .second hidden layer‏ خير تتم معالجة OMICS‏ 
المدمجة من خلال عنق الزجاجة bottleneck‏ المشفر التلقائيء وأخيرًا يتم إعادة بناء الأبعاد تدريجيًا 
إلى الأبعاد الأولية وفقًا لتماثل "الفراشة butterfly‏ " النموذجي للمشفرات التلقائية. 
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scRNAseq: InputLayer scProteomics: InputLayer 
Encoder scRNAseq: Dense Encoder. scProteomics: Dense 
concatenate, 1: Concatenate 


Bottleneck: Dense 


Concatenate, Inverse: Dense 


Decoder scRNAseq: Dense Decoder, scProteomics: Dense 


التكامل غير الخاضع للإشراف لبيانات CITEseq‏ 


في الكود الخاص ب «Usi Autoencoder‏ من المهم ملاحظة أن الطبقة المخفية الأولى تفرض Ía‏ 
T‏ الأبعاد على scRINAseq‏ من 977 إلى 50 cÉ‏ بينما تترك GS scProteomics‏ هي تقريبًء 
أي تقليل الأبعاد من 11 إلى 10. يقلل إجمالي الأبعاد الستين بعد التسلسل وصولاً إلى 50 متغيرًا كامنًا 
latent variables‏ و التي تمثل مجموعات من ميزات كل من MRNA‏ والبروتين. 


# Input Layer 

ncol scRNAseq - X scRNAseq.shape[l1] 

input dim scRNAseq - Input(shape - (ncol scRNAseq, ), name - 
"SCRNAseq") 

REL sceEroteomiesm exEscbProuconicsmshapey 
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inpuckdimiscErotcomii esi- IASUE(SRABE = (NESL SCErFOEEOMI CS, (| mame 
~ "ScProteomics") 


* Dimensions of Encoder for each OMIC 
encoding dim scRNAseq - 50 
encoding dim scProteomics - 10 


# Encoder layer for each OMIC 
encoded scRNAseq - Dense(encoding dim scRNAseq, activation - 
1 eau 


name = 
"Encoder scRNAseq") (input dim scRNAseq) 
encoded scProteomics = Dense(encoding dim scProteomics, activation 
= 'linear', 
name = 
"Encoder scProteomics") (input dim scProteomics) 


# Merging Encoder layers from different OMICs 
merge - concatenate([encoded scRNAseq, encoded scProteomics]) 


# Bottleneck compression 
BoE lene eK = Denge lst, Kernel initializer = Jumi المع‎ | ACELYaRLoOm = 
Uleimeau 


name = "Bottleneck") (merge) 


fInverse merging 


merge inverse > Dense(encoding dim scRNAseq -* 
encoding dim scProteomics, 
activation - 'elu', name - 


"Concatenate Inverse") (bottleneck) 


# Decoder layer for each OMIC 


decoded scRNAseq - Dense(ncol scRNAseq, activation - 'sigmoid', 
name = "Decoder scRNAseq") (merge inverse) 
decoded scProteomics = Dense(ncol scProteomics, activation > 


Jat “درم‎ y 
name = 
"Decoder scProteomics") (merge inverse) 


# Combining Encoder and Decoder into an Autoencoder model 
autoencoder - Model(input - [input dim scRNAseq, 
input dim scProteomics], 

output —- [decoded scRNAseq, 


decoded scProteomics]) 


# Compile Autoencoder 
autoencoder.compile (optimizer = 'adam', 
lossc('Decoder scRNAseq':; "mean-csquared'error*, 
'Decoder scProteomics': 
'mean squared error']) 
autoencoder.summary() 


شىء مفيد للغاية هنا هو أنه يمكننا تعيين دوال الخطأ loss functions‏ المختلفة إلى OMICS‏ القادمة 
من توزيعات إحصائية مختلفة» على سبيل المثال من خلال الجمع بين البيانات الفئوية categorical‏ 
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والمستمرة ccontinuous‏ يمكننا تطبيق الإنتروبيا المتقاطعة الفئوية categorical cross entropy‏ 
ومتوسط الخطأ التربيعي «mean squared error‏ على التوالي. شيء Qo‏ آخر حول تكامل البيانات 
عبر Autoencoders‏ هو أن جميع OMICSs‏ تعرف بعضها البعض حيث يتم تحديث وزان كل عقدة 
node‏ / ميزة feature‏ من خلال الانتشار الخلفي back propagation‏ سياق بعضها البعض. 
el‏ دعونا ندرب Autoencoder‏ وإدخال عنق الزجاجةفي tSNE‏ من أجل التصور: 


f Autoencoder training 
estumatorc-daubtoencodern-sfuüt X SERNASOG, XescEroteomicesm 

[X scRNAseq, X scProteomics], 

MOU, bacca size = 126;‏ = 25م ممه 

wa date On solir = ) 27 ع وله‎ Ele = Trus, 
verbose = 1) 
peime (Heninga bosss V" اتات لا تع 22 1 يدت‎ loss" 1 [Fed 
perme VEN ication Loss; V estinetor o Imiieneexev [p vel toss“ | ] 


joie plor (stc MENCOL -amisto lossi) 

plt عرو لام‎ (estimator NI SEO VN val lossi) 
plt.title('Model Loss') 

plt.ylabel('Loss') 

plt.xlabel('Epoch') 

ple legere لت عط‎ Va SAE رم ل‎ lr Llog = كم م"‎ iome") 
plt.show() 

# Encoder model 


ncoder - Model(input - [input dim scRNAseq, 
input dim scProteomics], 
output = bottleneck) 
bottleneck representation - encoder.predict([X scRNAseq, 
X scProteomics]) 


# tSNE on Autoencoder bottleneck representation 
model tsne auto - TSNE(learning rate - 200, n components - 2, 
Eandom SiEaee = 1 


parplesity = 90, m iter = 1000, 2555 = 1( 
ES chr) = 
model tsne auto.fit transform(bottleneck representation) 
pile 5496 0 (tene aucels, 0) 5 cne ngos. d, e = s SCRIS, Enei 
= 'tab20', s - 10) 
plt.title('tSNE on Autoencoder: Data Integration, CITEseq') 
plt.xlabel("tSN 
plt.ylabel("tSN 
plt.show() 
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tSNE on Autoencoder: Data integration, CITEseq 


EM s 


SNE 


تأثير تكامل بيانات :CITEseq‏ لرؤية الأنماط غير المرئيةفي OMICS‏ الفردية 


بمقارنة مخططات SNE‏ التي تم الحصول عليها باستخدام 01/1105 الفردية مع tSNE‏ على عنق 
الزجاجةفي المشفر التلقائي الذي يجمع البيانات» يمكننا أن نرى على الفور أن التكامل متوسط إلى حد 
ما ويعزز OMICS‏ الفردية. على سبيل المثال» سيكون من الصعب اكتشاف الكتلة الأرجواني باستخدام 
بيانات scRNAseq‏ وحدها لأنها لا تختلف عن مجموعة الخلايا الزرقاءء ولكن بعد التكامل يمكن 
تمييز مجموعة الخلايا الأرجوانى بسهولة. هذه هى قوة تكامل البيانات! 


تكامل بيانات scINM Tseq‏ مع التعلم العميق 

بينما يشتمل CITEseq‏ على مستويين من الخلايا المفردة من المعلومات transcriptomics)‏ و 
«(Protomics‏ فإن تقنية رائعة أخرى. «scNMT'seq‏ تقدم ثلاثة OMICs‏ من نفس الخلايا 
البيولوجية: 1( methylation pattern (scBSseq) (2 «transcriptomics (scRINAseq)‏ « 3 
open chromatin regions (scATACseq) 3‏ يمكن تنزيل البيانات الأو لية من هنا. 
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8 * iae e scRNAseq: InpatLayer scBSseq: InpotLaycr SCATACseq: InpatLayer 
f Lysis T" 
dcm ia ie 5 
X GpC mothylase . Q "d 7 


5 Dropout. scRNAscq: Dropout Dropout. scBSseq: Dropout Dropout. scATACseq: Dropout 
tap, 


treatment. 
$ 7 | Encoder, scRNAseq: Dense | Encoder. scliSseq: Dense | | Encoder _scATACsag Dense | 


Sequencing. 
mapping and Bottleneck: Dense 
spitting 

' ^N 


— i 
الالال‎ Decoder scRNAseq: Dense | | Decoder scBSseq: Dense | | Decoder scATACseq: Dense 


تكامل بيانات ScNMTseq‏ مع Autoencoder‏ 


إن بنية Autoencoder‏ مماثلة لتلك المستخدمةفي CITEseq‏ مع خصوصية واحدة فقط: يتم 
استخدام تسوية التسرب Dropout regularization‏ على طبقات الإدخال input layers‏ هذا يرجع 
إلى حقيقة أن لدينا 120 خلية فقط متسلسلة بينما أبعاد مساحة الميزة هي عشرات الآلاف. لذلك نحن 
بحاجة إلى تطبيق التنظيم regularization‏ للتغلب على لعنة الأبعاد. لاحظ أن هذا لم يكن ضروريًا ل 
CITEseq‏ حيث كان لدينا حوالي K8‏ خلية و ~ K1‏ ميزات» لذلك الوضع المعاكس تمامًا. ومع 
ذلك scNMTseq ob‏ بشكل عام ليست حالة سهلة لتكامل البيانات» وأعتقد اعتقادًا Gal‏ أن هذه 
مجرد بداية لعصر خلية مفردة متعددة ال OMICS‏ وأن العديد من الخلايا ستصل قريبًا من هذه التقنية 
المثيرةء لذلك من الأفضل أن تكون مستعدا. 


import numpy as np 

import pandas as pd 

from umap import UMAP 

from keras.models import Model 

imoore MAELO 15 omolog ck je 

from keras.layers.merge import concatenate 
from keras.layers import Input, Dense, Dropout 


11441144114 4444 44 READ AND TRANSFORM DATA iHEEEEEEEEEEEIEES E E 
SCRNAseq = pd.read csv('scRNAseq.txt',sep-'Nt') 

scBSseq = pd.read csv('scBSseq.txt',sep-'Nt"') 

SCATACseq = pd.read csv('scATACseq.txt',sep-'Nt') 


X scRNAseq = scRNAseq.values[:,0: (scRNAseq.shape[1]-1)] 

Y scRNAseq = scRNAseq.values[:,scRNAseq.shape[1]-1] 

X SEBSSed = SEBS va Ue £7 O0: (SESE SRA O im 

Y scBSseq = scBSseq.values[:,scBSseq.shape[1]-1] 

X ScATACseq - scATACseq.values[:,0: (scATACseq.shape[1]-1)] 
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Y scATACseq > scATACseq.values[:,scATACseq.shape[1]-1] 


X scRNAseq = np.log(X scRNAseq * 1) 
X scBSseq - np.log(X scBSseq * 1) 
xX SCATACSSG = Mo LOGO SEALANTS F L) 


TA HEEREREEERHEE ERE E EE ERE EE EE AUTOENCODER dHEEHEEEEBEEBBEHEEE E EE E E E 
# Input Layer 

ncol scRNAseq - X scRNAseq.shape[l] 

input dim scRNAseq - Input(shape - (ncol scRNAseq, ), name - 
"SCRNAseq") 

ncol scBSseq = X scBSseq.shape[l] 

input dim scBSseq = Input(shape = (ncol scBSseg, ), name — 
"scBSseq") 

EOL se Sedqu sene sequsapes 

input dim scATACseq - Input(shape - (ncol scATACseq, ), name - 
"SCATACseq") 


encoding dim scRNAseq - 30 
encoding dim scBSseq - 30 
encoding dim scATACseq - 30 


# Dropout on Input Layer 

dropout scRNAseq - Dropout(0.2, name - 
"Dropout scRNAseq") (input dim scRNAseq) 
dropout scBSseq = Dropout(0.2, name = 
"Dropout scBSseq") (input dim scBSseq) 
dropout scATACseq - Dropout(0.2, name - 
"Dropout scATACseq") (input dim scATACseq) 


# Encoder layer for each OMIC 


encoded scRNAseq - Dense(encoding dim scRNAseq, activation - 'elu', 
name = 

"Encoder scRNAseq") (dropout scRNAseq) 

encoded scBSseq = Dense(encoding dim scBSseqg, activation = 'elu', 
name > "Encoder scBSseq") (dropout scBSseq) 


encoded scATACseq - Dense(encoding dim scATACseq, activation = 
'elu', 

name = 
"Encoder scATACseq") (dropout scATACseq) 


# Merging Encoder layers from different OMICs 
merge > concatenate([encoded scRNAseq, encoded scBSseq, 
encoded scATACseq]) 


# Bottleneck compression 
Bel lene eK = Dense SO kernel imicializer = UML OEM, تت‎ = 
Mme aE, 


name = "Bottleneck") (merge) 


#Inverse merging 
merge inverse > Dense(encoding dim scRNAseq * encoding dim scBSseq 
T 


encoding dim scATACseq, 
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activation = 'elu', name = 
"Concatenate Inverse") (bottleneck) 


# Decoder layer for each OMIC 
decoded scRNAseq - Dense(ncol scRNAseq, activation - 'sigmoid', 
name = "Decoder scRNAseq") (merge inverse) 


decoded scBSseq = Dense(ncol scBSseq, activation = 'sigmoid', 
name — "Decoder scBSseq") (merge inverse) 
decoded scATACseq - Dense(ncol scATACseq, activation - 'sigmoid', 
name = 


"Decoder scATACseq") (merge inverse) 


# Combining Encoder and Decoder into an Autoencoder model 


autoencoder - Model(input - [input dim scRNAseq, input dim scBSseq, 
input dim scATACseq], 
output > [decoded scRNAseq, decoded scBSseq, 


decoded scATACseq]) 


# Compile Autoencoder 


autoencoder.compile (optimizer = 'adam', 
loss-('Decoder scRNAseq': 'mean squared error', 
Decoder SEBS SCE Binary CEOSSER EEO 


Decoder SCEATIACSES 
'binary crossentropy']) 
autoencoder.summary () 


# Autoencoder training 
estimator = autoencoder.fit([X scRNAseq, X scBSseq, X scATACseq], 
[X scRNAseq, X scBSseq, X scATACseq], 


epochs - 130, 
baten sizs = JH 25 13952250 golit = 


52 5 

shuffle = True, verbose = 1) 
peime ( علا‎ AER EROS Dossa V estimator, m عت‎ rev [E Losst N) 
piirne (AVAN OEE LON LOSSES reatus Oeo Imi كك لد ارصنع‎ |) 1 


joie plor )9 SE MAE )ست عت‎ y 
plt.plot(estimator.history['val loss']) 

ple estie db (o Model LOSS J; ole oz lle dere (tross JF PIE 11د‎ 2521 (nnova) 
plt.legend(['Train','Validation'], loc = 'upper right') 


# Encoder model 
ncoder = Model(input = [input dim scRNAseq, input dim scBSseq, 
input dim scATACseq], output - bottleneck) 
bottleneck representation - encoder.predict([X scRNAseq, X scBSseq, 
X scATACseq]) 


TEE E EE E EEEE UNIFORM MANIFOLD APPROXIMATION AND PROJECTION 
(UMAP) +++ #4 ++ #4 ++ +4 4# # 

model umap = UMAP(n neighbors = 11, min dist = 0.1, n components = 
2) 

umap = model umap.fit transform(bottleneck representation) 

plt EEE CES (NOLES, Ol; wu; i]; c = X SCRI; (cuo = "rablo", 
s = 10) 

plt.title('UMAP on Autoencoder: Data Integration, scNMTseq') 
plt.xlabel("UMAP1"); plt.ylabel("UMAP2") 
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UMAP on PCA: scNMTseq, scRNAseq 5 UMA? on Autoencoder: Data Integration, scNMTseq 
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الجمع بين النسخ transcriptomics‏ مع معلومات التخلق J epigenetics information‏ 
scNMTseq‏ 


هنا بدافع الفضولء. قمت بتغذية عنق الزجاجة ل Autoencoder‏ الذي يجمع 255 scNMTseq‏ 
4165و تقنية التقريب المتشعب الموحد والإسقاط Uniform Manifold Approximation‏ 
and Projection (UMAP)‏ غير الخطي لتقليل الأبعاد التي يبدو أنها تتفوق على tSINE‏ من حيث 
قابلية التوسع scalability‏ لكميات كبيرة من البيانات. يمكننا أن نرى على الفور أن المجموعة الزرقاء 
المتجانسة من حيث التعبير الجيني تنقسم إلى مجموعتين عندما يتم دمج scRINAseq‏ مع معلومات 
التخلق epigenetics information‏ من نفس الخلايا scBSseq)‏ و .(SCATA Cseq‏ لذلك يبدو 
أننا قد التقطنا عدم تجانس heterogeneity‏ جديد بين الخلايا والذي كان مخفيًا عند النظر فقطفي 
بيانات scRINAseq‏ للتعبير الجيني. هل يمكن أن تكون هذه طريقة جديدة لتصنيف الخلايا عبر 
المجموعات السكانية باستخدام التعقيد الكامل لبيولوجيتها؟ إذاكان الأمر ets‏ فإن السؤال يأتي: ما 
هو عدد الخلايا أو نوع الخلية؟ لا أعرف إجابة هذا السؤال. 


الاستنتاج 

لقد تعلمنا هنا أن المصادر المتعددة للمعلومات الجزيئية والسريرية أصبحت شائعةفي علم الأحياء 
والطب الحيوي بفضل التقدم التكنولوجي الحديث. لذلك فإن تكامل البيانات هو الخطوة المنطقية 
التالية التى توفر فهمًا أكثر شمولاً للعمليات البيولوجية من خلال الاستفادة من التعقيد الكامل للبيانات. 
يعتبر ji‏ عمل التعلم العميق مناسبًا بشكل مثالي لتكامل البيانات نظرًا لتحديثه "التكاملي 
"integrative‏ الحقيقي للمعلمات من خلال الانتشار الخلفي back propagation‏ عندما تتعلم lal‏ اع 
البيانات المتعددة المعلومات من بعضها البعض. لقد أوضحت أن تكامل البيانات يمكن أن يؤدي إلى 
اكتشافات لأنماط جديدةني البيانات لم تكن موجودة من قبل في أنواع البيانات الفردية. 
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المصدر: 


https://medium.com/towards- data-science/deep-learning-for-data- 
integration-46d51601£781 


التعلم العميق واستخداماته في المعلوماتية الحيوية 164 


Deep Learning for Clinical التعلم العميق للتشخيصات السريرية‎ (11 
Diagnostics 

(إجراء تنبؤات طبية حيوية أكثر ULol‏ باستخدام التعلم العميق) 
هذه هي المقالة الرابعةفي سلسلة التعلم العميق لعلوم الحياة.في المنشورات السابقة» أوضحت كيفية 
استخدام التعلم العميق على الحمض النووي القديم والتعلم العميق لبيولوجيا الخلية المفردة والتعلم 
العميق لتكامل البيانات. نحن الآن بصدد الغوصفي الطب الحيوي Biomedicine‏ ومعرفة لماذا 
وكيف يجب أن نستخدم التعلم العميق البايزي Bayesian Deep Learning‏ من أجل سلامة 
M‏ 
قدم تسلسل الجيل التالي Next Generation Sequencing (NGS)‏ تقدمًا كبيرًا لفهمنا للآليات 
المسببة للأمراض التي تؤدي إلى أمراض بشرية شائعة. ومع ذلك لا تزال كمية البيانات تشكل عنق 
الزجاجة للتحليلني الطب الحيوي. على عكس علم البيانات «Data Science‏ فإن الملايين من الأمثلة 
غير شائعة إلى حد مافي الطب الحيوي بينما البيانات عالية الأبعاد نموذجية LOS‏ لذلك فإن التعلم الآلي 
له تطبيقات محدودة للغايةفي الطب الحيوي. يؤدي نقص البيانات ومساحة المعلمات عالية الأبعاد إلى 
إعاقة الدقةفي التشخيص السريري clinical diagnostics‏ مما يؤدي إلى الكثير من التنبؤات الخاطئة 
التي لا تثبتفي التجارب السريرية clinical trials‏ . عندما تكون البيانات متناثرة /sparse‏ نادرة [scarce‏ 
صاخبة noisy‏ وعالية الأبعاد «high-dimensional‏ يساعد الإحصاء البايزي Bayesian Statistics‏ 
في عمل تنبؤات قابلة للتعميم -generalizable predictions‏ 
سنناقش هنا كيفية تنفيذ التعلم العميق البايزي Bayesian Deep Learning‏ مع 3 من أجل 
ضمان سلامة المريض وتقديم تنبؤات أكثر دقة وذكاء للتشخيص السريري. 


لماذا تكون بايزي عند تشغيل التعلم العميق؟ 

T‏ المنشور السابق أوضحت أنه عند إجراء تحليل إحصائي «statistical analysis‏ يجب أن تولي 
اهتمامًا خاصًا للتوازن بين عدد الملاحظات الإحصائية N «statistical observations‏ وأبعاد 
المساحة الخاصة «b‏ أي عدد الميزات .number of features‏ 2. اعتمادًا على كمية البيانات» أنت 
يمكن الاختيار بين الإحصاء البايزي Bayesian Statistics‏ والإحصاء المتكرر Frequentist‏ 
Statistics‏ والتعلم e.‏ / العميق .Machine/Deep Learning‏ 
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Bayesianism Frequentism Deep Learning 


LA 
OO 
ZK @ output layer 


hidden layer 1 hidden layer 2 


P-N P >> لا‎ | 


Amount of Data 


من المنطقي استخدام التعلم العميق فقط عندما يكون لديك الكثير من البيانات 


لذلك من المنطقي استخدام التعلم العميق عندما يكون لديك الكثير من البيانات لأنه يمكنك التخلي 
عن عالم الجبر الخطي الممل والقفز إلى حفرة الأرانبفي الرياضيات غير الخطية.في المقابلء يعمل 
الطب الحيوي عادةفي الحد المقابل» N >> P‏ ويحتاج إلى احتمالات سابقة Priors‏ للتعويض عن 
نقص البيانات. هذا هو السبب الأول الذي يجعل التحليل الطبي الحيوي Biomedical analysis‏ 
يجب أن يكون بايزي. 

تخيل الآن للحظة أنك حصلت على بعض البيانات الطبية الحيوية الضخمةء فهذا أمر غير شائع ولكنه 
ليس مستحيلًا إذا عمل المرء مع التصوير أو بيولوجيا الخلية المفردةء هنا يمكنك ويجب عليك القيام 
بالتعلم العميق. لكن لماذا تريد أن تكون بايزيني هذه الحالة؟ 


Intelligence is to know how much you do not know 
=. 


ok 3y ingaan aeta rp lepan 


K> 
ta bo 
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QJPR s. 


iM M ÛU 61 78 75 0ه‎ 85 36 35 


Magnitude of Earthquake‏ منت 
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هنا يأتي السبب الثاني: ضرورة إنشاء تنبؤات أقل فئوية less categorical‏ (مقارنة بالتعلم العميق القائم 
على التكرار التقليدي (traditional Frequentist‏ من خلال دمج P‏ جه عدم اليقين uncertainties‏ 
في النموذج. هذا له أهمية كبيرة بالنسبة للمناطق ذات الأسعار الباهظة للتنبؤات الخاطئة مثل السيارات 
ذاتية القيادة «self-driving cars‏ ونمذجة سوق الأسهم «modelling stock market‏ والزلازل 
cearthquakes‏ وخاصة التشخيصات السريرية clinical diagnostics‏ 


لماذالا يتم التحليل التكرارى للطب الحيوى؟ 

هناك العديد من الأسباب التي eu‏ أن تكون حذرًا m‏ تطبيق الإحصائيات التكرارية Frequentist‏ 
Statistics‏ على التشخيص السريري. يعتمد بشكل كبير على افتراض الحالة الطبيعية وبالتالي فهو 
حساس للقيم المتطرفة coutliers‏ ويعمل مع الإحصاءات الوصفية descriptive statistics‏ التي Y‏ 
تعكس tb‏ توزيعات البيانات الأساسية وبالتالي تفشلفي التقاط الفرق بين مجموعات البياناتفي 
مجموعة أنسكومب الرباعية Anscombe's quartet‏ بشكل صحيح. 
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فى المقابل» ستؤدي النمذجة الاحتمالية البايزية Bayesian probabilistic modelling‏ لمجموعات 
بيانات أنسكومب إلى اختلافات كبيرةفي توزيعات الاحتمالات. 

الذكاء هو أن تعرف مقدار مالا تعرفه 
هناك بعض الأمثلة الشهيرة التي يشار إليها عادة باسم Data Saurus‏ والتي توضح Cal‏ أن الإحصاء 
التكراري لا يمكنه التقاط الفرق بين مجموعات العينات ذات الإحصائيات الوصفية المتطابقة مثل 
المتوسط mean‏ أو الانحراف المعياري standard deviation‏ أو معامل ارتباط بيرسون Pearson's‏ 


correlation coefficient 


167 11( التعلم العميق للتشخيصات السريرية 


! PT ME X Mean: 54.26 
D. E Y Mean: 47.83 
baee IS Uu X SD : 18.76 
ét iot ^ ; 
; o. EN YsD : 25.95 
KOR ee Rt Corr. : -0.06 
e No 


Po T LA. oo. 
. 


0 


لذلك. لا ينبغي استخدام التحليل التكراري المبسط للتشخيص السريري حيث لا يمكننا تحمل التنبؤات 
الخاطئة التي يمكن أن تضر بحياة الناس. 


التعلم العميق البايزي على PyMC3 &oscRANAseq‏ 

هنا سأستخدم بيانات scRINAseq‏ عن الخلايا الليفية المرتبطة بالسرطان Cancer Associated‏ 
Fibroblats (CAFs)‏ وأطبق التعلم العميق البايزي لتصنيفها بين أنوا اع الخلايا الخبيثة malignant‏ 
وغير الخبيثة .non-malignant‏ بطريقة مماثلة» يمكن تصنيف مرضى السكري إلى أنواع فرعية من 
الأمراض للحصول على وصفة علاج دقيقة. سنبدأ بتنزيل بيانات التعبير من هناء وتحميلهاني «Python‏ 
وتقسيمها إلى مجموعات فرعية للتدريب والتحقق من الصحة والتصور باستخدام dall SINE‏ 
صفوف مصفوفة التعبير عبارة عن عينات .cels U*U-/samples‏ والأعمدة هي ميزات 
15 جينات genes‏ ويحتوي العمود الأخير على تسميات خلايا مشتقة من تجميع DBSCAN‏ 
غير المتحيزة -unbiased DBSCAN clustering‏ 


import numpy as np 

import pandas as pd 

imoore MAE امم 15 عات لاك‎ ck ple 

from sklearn.manifold import TSNE 

from sklearn.decomposition import PCA 

from sklearn.preprocessing import OneHotEncoder 

from sklearn.model selection import train test split 


# READ AND LOG-TRANSFORM DATA 

expr = pd.read csv('expr rpkm.txt', sep-'Nt') 
X = expr.values[:,0: (expr.shape[1]-1)] 

i expr.values[:,expr.shape[1]-1] 

X e )ا‎ ۴ 1 


# PLOT TSNE ON PCA 

X reduced > PCA(n components = 30).fit transform(X) 
model-TSNE(learning rate-10,n components-2,random state-123,perplex 
ity-30) 

tsne = model.fit transform(X reduced) 
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pier 5620662 [عشضمع)‎ -r Ol, :ا عع‎ | Jj» e c X. pug — CIOS, © — 
10) 
plt.title('tSNE: CAFs, scRNAseq data',fontsize - 15) 
plt.xlabel("tSNE1", fontsize - 15); plt.ylabel("tSNE2", fontsize - 
15) 
plt.show() 

SPLIT DATA INTO TRAINING AND VALIDATION SUBSETS 
XC Eran xX Cesk, E GEAN YS CESE = 


Ecdin test SM E E 4 tene; LES size = 0.4; 


stratify-None,random state-12) 

Y train-np.array(OneHotEncoder().fit transform(Y train.reshape(- 
1,1)).todense()) 

Y test-np.array(OneHotEncoder().fit transform(Y test.reshape(- 
1,1)).todense()) 


tSNE on PCA: Cancer-Associated Fibroblasts (CAFs) sub-populations, scRNAseq data 


tSNE2 


-40 


يمكن تمبيز أربع مجموعات بوضوحفي مخطط SNE‏ بعد ذلك» سنقوم ببناء نموذج الشبكة العصبية 
Bayesian Neural Network (BNN) à UI‏ بطبقة واحدة مخفية و16 خلية عصبية» ويتم ذلك 
عن طريق تعيين Normal Priors‏ للأوزان weights‏ والتحيزات biases‏ وتهيئتها بقيم عشوائية. 


| HM , (Bayesian) 
| 2 (Bayesian) 


— ۷, (conventional) 


— D. 1 (conventional) 


0.8 3.1 
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لبناء BNN‏ سأستخدم 3 و أتبع النهج الموضح في مدونة Thomas Wiecki‏ الرائعة. ضمن 
النموذج. نحدد Cal‏ الاحتمال الذي يمثل توزيعًا قاطعًا LY‏ نتعامل مع مشكلة تصنيف scR.NAseq‏ 


متعددة الفئات )4 فتات (classes‏ 


import theano 

import pymc3 as pm 

import numpy as np 

import theano.tensor as tt 


def build bayesian neural network(X, Y): 


n samples = X.get value().shape[0] 
nocdlasses = w get value().shape[t] 
n input = X.get value().shape[1] 


nm meden = 16 
with pm.Model() as model: 
# Priors for unknown model parameters 


w hidden-pm.Normal('w hidden',mu-0,sd-1,shape-(n input,n hidden), 
testval = 
np.random.randn(n input,n hidden)) 


w output-pm.Normal('w output',mu-0,sd-1,shape-(n hidden,n classes), 


testval-np.random.randn(n hidden,n classes)) 
b hidden-pm.Normal('b hidden',mu-0,sd-1,shape - (n hidden), 
testval > np.random.randn(n hidden)) 
b output-pm.Normal('b output',mu-0,sd-1,shape- (n classes), 
testval-np.random.randn(n classes)) 
f Expected value of outcome 


hidden layer-pm.math.tanh(pm.math.dot(X.get value(),w hidden)-*b hid 
den) 

output layer-pm.Deterministic('output layer', 
tt.nnet.softmax( 


pm.math.dot(hidden layer,w output) 
T 
b output)) 
# Likelihood (sampling distribution) of observations 
likelihood - pm.Categorical('likelihood', output layer, 
observed - 


np.where(Y.get value())[11) 
return model 


من خلال وضع 5 على الأوزان والتحيزات» ندع النموذج يعرف أن هذه المعلمات بها 
«uncertainties‏ وبالتالي ob‏ اخذ عينات (MCMC sampler) MCMC‏ ستنشئع توزيعات لاحقة 
Posterior distributions‏ لها. سنقوم الآن بتحديد دالة تستمد عينات من المؤثرات الخلفية 


لمعلمات شبكة BNN‏ باستخدام أحد خوارزميات Hamiltonian Monte Carlo‏ (عينة أسرع 
بكثير مقارنةً ب Metropolis‏ على سبيل المثال عندما يمكن حساب مشتقات المعلمات) خوارزميات 
تسمى NUTS‏ أخذ العينات هو تدريب BNN‏ . 
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def train bayesian neural network (model): 


WX om 


model - 
traCe = 


with model: 
draws = 
Swear = 


1000 


pm.find MAP(maxeval => 


step = pm.NUTS() 


traa = 


return trace 


pm.sample (draws=draws, 


theano.shared(X train) 
theano.shared(Y train) 


SESS EEE, 


build bayesian neural network(X, Y) 
train bayesian neural network (model) 


10000) 


start-start) 


ستقوع الآن ecd‏ من col dme‏ تموذج الشبكة الحصبية البايزية باستخدام إجراء الفح geal‏ 
الخلفي Posterior Predictive Check (PPC)‏ . لهذا (A AI‏ سوف نستخدم النموذج المدرب 
ونرسم حدود القرار decision boundary‏ على مخطط ENSE‏ لمجموعة الاختبار الفرعية. يتم إنشاء 
حدود القرار عن طريق بناء شبكة 100 x‏ 100 على مخطط tSINE‏ وتشغيل تنبو النموذج لكل نقطة 
من الشبكة: بعد tS‏ تحسب المتوسط والاتحراف المعيازي Jet‏ تعيين كل نقطة على الشببكة إلى 
أحد الأنواع الفرعية للخلايا الأربعة وتصور متوسط الاحتمال mean probability‏ وعدم اليقين 
uncertainty‏ بشأن الاحتمال. 


guess‏ 1ه Olmin) = ly x TESS,‏ ىه ]| mny Re meaz = XX wes‏ كد 
y mim, wr mess = X cesto; Tomin) = l X testis; JJ] sues)‏ 
Xx,yy-np.meshgrid(np.linspace(x min,x max,101),np.linspace‏ 
max, 101))‏ 

my gerc velves nomea aver Envase aes QNI 


dummy out - 


prog list = 1‏ الظ 
for k in range(10):‏ 


samples - 


ppc 


ppc 


ppc 


ppc 


model - 


X.set value(np.float32 (my grid values)) 


DO AEE O LO LOT OE OLO 


Y.set value (AB: leat 32 (dummy out)) 


ppc = 
500) 


nmi probs = [ 
for j in range (ppc['likel 
my probs. 


'likelihood' 


'likelihood' 


'likelihood' 


'likelihood' 


app 
) 


pm.sample posterior predictiv 


end ( [sum 


== 0) / 


BEE 
sum 


== 3) / 


build bayesian neural network(X, Y) 


il 
1 


(y min,y 


(np.array([i 


'likelihood' 
(np.array([i 


iai keti nocc" 
(np.array([i 


"11 ke tinoc" 
(np.array([i 


(trace, 


lihood'].shape 


TT» 


ESE 3t abi 


.shape [0], 


O aL gi 


.shape [0], 


O aL gi 


.shape [0], 


OE aL Sg 


model = model, 
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ppc['likelihood'].shape[0]]) 


Z prob - np.array([np.max(i) for i in np.array(my probs)]) 


Z prob list.append(Z prob) 


Z prob mean = np.array(Z prob list).mean(axis-0) 
Z prob mean —- Z prob mean.reshape(xx.shape) 

A peoo sul = mo بردط د‎ la prog list) SEIS AE S> 0) 

Z prob std - Z prob std.reshape(xx.shape) 

25. PESOS SEG 


fig = plt.figure(figsize-(25, 20)) 
dE s 5 عات لام قن‎ (221) 


p 

p L 

cmap='viridis', s=20) 

plt.title('tSNE on PCA', fontsize - 20) 

plt.xlabel("tSNE1", fontsize = 20); plt.ylabel("tSNE2", fontsize 
20) 

plt.subplot (222) 

plt.contourf(xx, yy, Z prob mean, cmap - plt.cm.coolwarm, alpha 
0.8) 

jolie CEOLOEDAE (0) 


cmap-'viridis', s-20) 


115868055126 ls tests Olr x wes[s. Ily cec test ism. 


plt EEE CES testli; Olr S testle; d] e test originell, 


Pigs zilin Gesa IER SMa )(( 7 DEC ylin (sos an VV RASD) 


DEE s subpitot(229) 

sns.distplot (np.round(ppc['likelihood'].mean(axis-0))) 
plt.title('Calss Assignment Distribution', fontsize - 
plt.xlabel("Class Assignment",fontsize-20); 
plt.ylabel("Density",fontsize-20) 


plt.subplot(224) 

cmap = sns.cubehelix palette(light-1, as cmap-True) 
plt.contourf(xx, yy, 4 prob std, cmap — cmap, alpha - 
PLE 46102532 )( 


20) 


ome 


ple 6ه‎ 8055342 (x testler Oly X testli Ily cw test oricinal, 


cmap-'viridis', s-20) 


jolie LOSS MERO, xXx 122 )(( م‎ Tubes wbaum (sr summ (o YU عدت‎ () )) 


plt.show() 
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حدود القرار الاحتمالية مع خريطة عدم اليقين لتصنيف CAFs‏ 


المخططات أعلاه تتوافق مع SINE‏ مجموعة الاختبار الفرعية (أعلى اليسار)؛ SINE‏ المجموعة 
الفرعية للاختبار مع متوسط احتمال تخصيص كل نقطة لأي من الأنواع الفرعية للخلايا الأربعة (أعلى 
اليمين)» وهو ما الاحتمال الأر جح / الشبكة العصبية التكرارية Maximum Likelihood‏ 
‘Frequentist Neural Network‏ و GtSNE‏ مجموعة الاختبار الفرعية مع عدم اليقين من 
احتمال تخصيص كل نقطة لأنواع الخلايا الأربعة (أسفل اليمين)ء وهو ناتج معين لشبكة Bayesian‏ 
Neural Network‏ هنا تشير الألوان الحمراء والزرقاء إلى احتمالية عالية ومنخفضة لتعيين نقاط 
17 لأي نوع فرعي من الخلاياء على التوالي. تشير المنطقة المظلمةفي خريطة حرارة عدم اليقين إلى 
مناطق عالية عدم اليقين. 

ما يمكننا رؤيته على الفور هو أن متوسط مخطط الحرارة الاحتمالي يحتوي على خليتين من الفئة 
الصفراء تم تعيينهما باحتمالية 100/: للمجموعة الأرجواني. يعد هذا Graas‏ خاطنًا للغاية وإثباتًا لفشل 
الاحتمال الأرجح / الشبكة العصبية المتكررة.في المقابل» تظهر خريطة حرارة عدم اليقين أن الخليتين 
الصفراء تسقطانفي منطقة مظلمة نسبيًا مما يعني أن شبكة بايزي العصبية لم تكن متأكدة على الإطلاق 
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من تخصيص هذه الخلايا لأي مجموعة. يوضح هذا المثال قوة التعلم العميق البايزيفي إجراء تصنيفات 
أكثر أمانًا وأقل جذرية والتي لها أهمية خاصة للتشخيصات السريرية. 


الاستنتاج 

لقد تعلمنا هنا أن التعلم العميق البايزي هو طريقة أكثر دقة Ul,‏ للقيام بالتنبؤات» وهو أمر منطقي جد 
لاستخدامهني التشخيص السريري حيث لا يُسمح لنا أن نخطئنفي وصفات العلاج. لقد استخدمنا 
MCMC, PyMC3‏ من أجل بناء نموذج التعلم العميق البايزي وعينة من الاحتمال اللاحق 
لتخصيص العينات للفئات الخبيثة مقابل غير الخبيثة. أخيرًاء أظهرنا تفوق التعلم العميق البايزي على 
النهج المتكررفي استخدام معلومات عدم اليقين لتجنب سوء تصنيف العينة. 


المصدر: 


https://towardsdatascience.com/deep-learning-for-clinical-diagnostics- 
ca7bc254ebac 
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Deep Learning on التعلم العميق في التصوير المجهرى‎ (12 
Microscopy Imaging 

(كشف الخلايا الجيدة والسيئة والقبيحة باستخدام التعلم العميق) 
هذه هي المقالة الخامسةفي سلسلة التعلم العميق لعلوم الحياة.في المنشورات السابقةء أوضحت كيفية 
استخدام التعلم العميق على الحمض النووي القديم والتعلم العميق لبيولوجيا الخلية المفردة والتعلم 
العميق لتكامل البيانات والتعلم العميق للتشخيص السريري. سنتحدث اليوم عن أحد التطبيقات 
الرئيسية للتعلم العميق لعلوم الحياة وهو رؤية الكمبيوتر Computer Vision‏ لتحليل الصور المجهرية 


.microscopy image analysis 


المجهر AVI‏ الفلوري Automated fluorescence microscopy‏ هو حصان عامل للتصوير 
المجهري لعلوم الحياة الذي يولد ملايين الصور الخلوية .cellular images‏ تتفوق الشبكات العصبية 
التلافيفية ((CNNs)‏ تعلم البنية المكانية spatial structure‏ لبيانات التصوير وتتفوق على أساليب 
التعلم A‏ التقليدية من خلال الاستخراج التلقائي للميزات automatic feature extraction‏ 


Pre-processed Detected Extracted Conventional 

E image objects Features machine learning 
St rj 
c i s 
F p EE 
T 5 LEBSLAEBS OU 
SE P 1 Statistical m 31 SE: 

x 

^ م | $9 


|, convolution 
N 
E 
$5. وود‎ 
ry 
Hs L 
8 224 
Feature Activation Down-sampled Fully (dense)- Probabilistic 
maps responses output connections distribution 
—380366 «Cytometry 95 «A. Gupta et al. سير العمل التقليدي مقابل التعلم العميق من‎ 
(2019) 


في حين أن تصنيف الصور بفئة واحدة لكل صورة (المعروف أيضًا باسم القطط مقابل الكلاب cats‏ 
(vs. dogs‏ يعد حاليًا مهمة تافهة جد إلا أن التصنيف الفعال متعدد التسميات multi-label‏ 
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classification‏ واكتشاف الكائنات يمثلان مشكلات أكثر صعوبة حيث يتم OU‏ تطوير جيل جديد 
من شبکات .CNN‏ 


سأصف هنا كيفية استخدام الشبكات العصبية الاصطناعية Mask-RCNN; Faster-RCNN‏ للكشف 


عن أنواع الخلايا على صور المجهر الفلوري fluorescence microscopy images‏ من Human‏ 
.Protein Atlas (HPA)‏ 


الصورة مقابل البيانات &.Lo.3 JJI‏ 

عندما يتعلق الأمر بتحليل الصور image analysis‏ عادة ما أتساءل عن سبب تفوق التعلم العميق 
(مقارنة بالتعلم Machine Learning A‏ والتحليل الإحصائي ¿(statistical analysis‏ العمل مع 
الصور وتطبيق أقل نجاحًا على البيانات الرقمية numeric data‏ في الواقع» من خلال العمل مع بيانات 
Omics‏ لتسلسل الجيل التالي الطبي الحيوي Next Generation Sequencing (NGS)‏ (علم الجينوم 
«genomics‏ والنسخ «transcriptomics‏ والبروتيوميات proteomics‏ وما إلى 05(« والتي تكون 
عادة رقميةء لا أرى غاليًا الشبكات العصبية neural networks‏ تتفوقني الأداء على سبيل المثال على 
الغابة العشوائية Random Forest‏ القدرة التنبؤية» وبالتالي نوصي دائمًا بالبدء بنماذج خطية بسيطة 
قبل الغوص في الرياضيات غير الخطية باستخدام التعلم العميق. 


لماذا يعد التعلم العميق 43[ لتحليل الصور؟ 

هل هو مجرد كمية هائلة من بيانات التصوير المتاحة كما يقترح جيفري هينتون eIGeoffrey Hinton‏ 
أن هناك Us‏ غير خطيفي شدة البكسل غير موجودفي البيانات الرقمية؟ هل هي مجرد بُنية spatial‏ 
structure‏ مكانية للبيانات؟ 


أول شيء تلاحظه تشغيل التعلم العميق على بيانات الصورة هو أن الحياة تصبح أسهل مقارنة بإجراء 
التعلم العميق على بيانات Omics‏ الرقمية. هناك الكثير من الأدبيات والعديد من البرامج التعليمية عبر 
ea aY!‏ التي يمكن أن تساعدك. أنا معجب كبير بجيسون براونلي Brownlee‏ 0 وأدريان روزبروك 
c Adrian Rosebrock‏ أذهب إلى مدوناتهم وعادة ما أجد إجابات على جميع أسئلتي.ني المقابلء 
تشغيل التعلم العميق على البيانات الرقمية Omics‏ (مثل تسلسل الحمض النووي الريبي RNA‏ 
(sequencing‏ نتفي الأساس بنفسك. لا يوجد الكثير من الأشخاص الذين يعرفون أفضل منك ما 
هي i:‏ الشبكة network architecture‏ ودالة التنشيط activation function‏ والمحسن 
optimizer‏ وما إلى ذلك التي تناسب بيانات Omics‏ الرقمية الخاصة «sb‏ لذلك تحتاج o‏ إلى تجربة 


الكثير. 
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التصوير المجهري للخلايا 

ومع ذلك. عند دخولكف التصوير المجهري microscopy imaging‏ ستجد الكثير من الدعم من 
المجتمع. أحد الموارد الرائعة المتاحة هو Human Protein Atlas (HPA)‏ الذي يوفرء من بين أشياء 
أخرى » بيانات صور رقمية توضح توطين localization‏ البروتيناتفي خلايا مفردة. 


HUMAN PROTEIN ATLAS ° 


zMENU HELP NEWS 


eg REMS, insulin, C538 


Research Article Recent news 
A subcellular map of the human proteome woni 


Single cells within tumor and 


e a metastasis harbor geneve aifierences 
Tuo, 25 Jun 2010 
E E3 انون‎ image o! the monti; NATIO, the 


multitasking protein 


2 a paa 
A Tel Ceil image o! me Mont) 


read ihe published ful! story of the subcellular proteome analysis 


يعد Human Protein Atlas (HPA)‏ مصدرًا رائعًا لبيانات الصور الرقمية 


تم شرح البيانات باستخدام citizen science approach via online game‏ واستخدامهاني مسابقة 
Kaggle‏ لتصنيف الصور متعدد التصنيفات .multi-label image classification‏ يمكن تنزيل 
البيانات من هناء وهي تشمل ما يقرب من 124000 صورة تدريب و 47000 صورة اختبار 512 x512‏ 
PNG‏ ل 28 فكة أي أرقام من 0 إلى 27 رمرًا لمقصورات الخلايا cell compartments‏ حيث يتم 
التعبير عن بروتين معين. الهم من ذلك. يمكن أن توجد فئات متعددة على نفس الصورة حيث يمكن 

التعبير عن البروتيناتفي عدة أماكن من الخليةفي وقت واحد. 


name label dict - ( 
'Nucleoplasm', 

'Nuclear membrane', 

Muelle ET 

'Nucleoli fibrillar center', 
'Nuclear speckles', 

'Nuclear bodies', 
'Endoplasmic reticulum', 
'Golgi apparatus', 


GOK E D)‏ كن بن وت الك 
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OE 'Peroxisomes', 

O8 'Endosomes', 

10:  "'Lysosomes', 

tig 'Intermediate filaments', 
12/8 'Actin filaments', 

38 'Focal adhesion sites', 
14: 'Microtubules', 

i58 'Microtubule ends', 

16: "'Cytokinetic bridge', 

Trs "iios Toe" 

18: ^"'Microtubule organizing center', 
TOs 'Centrosome', 

2g Varios! oheopeleus" , 

218 'Plasma membrane', 

22s Vell Judge". 

25 'Mitochondria', 

24:  'Aggresome', 

25 Jey rosoli 

26 'Cytoplasmic bodies', 

27 Roce m erage jd 


import numpy as np 

import pandas as pd 

import seaborn as sns 

annot = h reed eov (V Erain CSW) 

my Classes = [i split VU) for 1 in amnor "M esee" ]| values] 
my Classes = fint G) or < im my Clesses TOL xy ia 5x] 
sns.distplot(my classes) 

plt.xlabel('HUMAN PROTEIN ATLAS CLASSES', fontsize - 20) 
plt.ylabel('FREQUENCY', fontsize - 20) 


FREQUENCY 


» 5 2 
HUMAN PROTEIN ATLAS CLASSES 


بالنظر إلى توزيع فتات HPA‏ يمكننا أن نرى أن البروتينات ذات الأهمية يتم التعبير عنها OU‏ بلازم 
نووي Nucleoplasm‏ (الفئة 0( وعصارة الخلية Cytosol‏ (الفتة 25). oM‏ دعونا نتحقق من شكل 
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صور .HPA‏ اتضح أن عرض صور HPA‏ مهمة غير تافهة لأنها تحتوي على 4 قنوات بدلاً من 3 
قنوات RGB‏ القياسية التي تسلط الضوء على البروتين المهم (القناة الخضراء (green channel‏ 
بالإضافة إلى ثلاثة معالم خلوية :cellular landmarks‏ الانابيب الدقيقة microtubules‏ (الحمراء) 
والنواة nucleus‏ (الزرقاء) والشبكة الإندوبلازمية endoplasmic reticulum‏ (أصفر ). تتمثل إحدى 
طرق دمج القنوات الأربعةفي GPython‏ إدراك أن اللون الأصفر = أحمر + أخضر وإضافة نصف القناة 
الصفراء إلى الأحمر والنصف الآخر إلى القناة الخضراء. 


from PIL import Image 
import matplotlib.pyplot as plt 
def load image(path, id): 


Ro.enpranray(magesopen(pache residet eedspng 

G —- np.array(Image.open(path * id * ' green.png')) 
B > np.array(Image.open(path * id * ' blue.png')) 

Y - np.array(Image.open(path * id * ' yellow.png')) 


image - np.stack((R * Y/2, G * Y/2, B),-1).astype (np.f10oat32) 
return image 
my image = load image('/HPA/','0alfe790-bac8-11e8-b2b7- 
aclf6b6435dg0') 
plt.imshow((my image).astype (np.int)) 


0 


100 


200 


300 


باستخدام load image Jl‏ قمت بإنشاء مجموعة بيانات تدريب جديدة تضم حوالي 31000 
صورة عن طريق دمج 4 قنوات لكل معرف صورة. 

بناء تعليق توضيحي لاكتشاف الخلية 

oi‏ يعد ol‏ تملا كيقية عرض صور HPA‏ ودمج القنوات الأربع» حان الوقت لإنشاء تعليقات 
توضيحية annotations‏ لاکتشاف نوع الخلية مع الشيكات العصبية Faster-R CININ‏ و Mask-‏ 
NN‏ 1]. لأغراض العرضء قمت بمراجعة عدد قليل من الصور والصور المختارة التي تحتوي على 
CIS‏ الخلايا مع البروتين jas padl‏ مقصورات (Nucleoli compartments) Nucleoli‏ 
(Nucleoli, Nucleoli fibrillar center, Nuclear speckles, Nuclear bodies)‏ وخلايا 
بدون علامات على تعبير البروتينفي مقصورات .Nucleoli‏ وبهذه الطريقة. هدفت إلى الحصول على 
3 فتات Nucleoli)‏ ولیس Nucleoli‏ وخلفية d(background‏ كل صورة من صور التدريب | 
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الاختبار الخاصة بي. بعد ذلك, أمضيت ساعتين مع Labellmg‏ لتعيين مربعات bounding boxes‏ 
إحاطة وتسميات فئة لكل خلية من أجل 45 صورة قطار HPA‏ تم حجز 5 صور أخرى كمجموعة 
بيانات اختبار لاستخدامهاني إجراء التنبؤات. 


balia Morea Niel ALEAN hs uerit Pr Nhl esane Cot otai rain Ra نعف‎ a AT on V 


EET إل‎ | JS] E: 


SAAE 


] 


التعليق التوضيحي اليدوي للخلايا باستخدام Labellmg‏ 


يقوم Labellmg‏ بتسجيل التعليقات التوضيحية للخلايا بتنسيق xml‏ الذي يحتوي على البنية 
النموذجية التالية: 


«annotation» 
«folder»5train«/folder» 
«filename»0a3028e6-bbca-11e8-b2bc- 
aclf6b6435d0.png«/filename» 

«path»/HPA/0a3028e6-bbca-11e8-b2bc-aclf6b6435d0.png«/path» 

«source» 
«database»Unknown«/database» 

</source> 

<size> 
«width»5512«/width» 
«height»512«/height» 
«depth»3«/depth» 

«/size» 

«segmented»0«/segmented» 

«object» 
«name»Nucleolic/name» 
«pose»Unspecified«/pose» 
«truncated»0«/truncated» 
«difficult»0«/difficult» 
«bndbox» 

«xmin»317«/xmin» 
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«ymin»410«/ymin» 
«xmax»411«/xmax» 
«ymax»507«/ymax» 
«/bndbox» 
«/object» 
«/annotation» 


هنا يمكنك رؤية العرض )512 بكسل». الارتفاع )512 بكسل) والعمق )3 قنوات) للصورة» وكائن 
واحد بإحداثيات محددة بواسطة مربع الاحاطة (ymax .xmax ymin .xmin)‏ والتسمية 
Nucleoli"‏ ". يحتاج Faster-RCNN‏ إلى ملف تعليق توضيحي بتنسيق خاص مفصول بفواصل 
(csv)‏ . لإعداد ملف csv‏ هذاء نحتاج إلى تحليل تعليقات xm]‏ التوضيحية لكل صورة: 


def build annot(file): 
from xml.etree import ElementTree 


EE = ElementTree.parse (file) 
root = tree.getroot() 

sc uns = listh) 

x mex = listi) 

y mia = LASÊ 


y mez = MESE) 
for boz ia FOOSE imc dE (0 577 7 iare loXos s 


x min.append(int(box.find('xmin').text)) 
y min.append(int (box.find('ymin').text)) 
x max.append(int(box.find('xmax').text)) 
y max.append(int (box.find('ymax').text)) 

my Classes = 1520 

my images = list() 

for name in root.findall('.//object!'): 


my classes.append(name.find('name').text) 
my images.append('train/' + 
rood inda MET 211652026 Ol Cex) 


annot df = pd.DataFrame(('Image': my images,'xmin': x min, 
'xmax': x max, 
"V ymmo g y meia; ETE y mes 
"Class: my Classesh) 
return annot df 


import os 

annot df > pd.DataFrame() 

for i in os.listdir('/HPA/train annot/'): 

annot df = pd.concat([annot df, build annot('/HPA/train annot/' 

ar Sense (35) 9] م‎ 

ignore index-True) 

annot df.to csv('/HPA/annot.txt', header-False, index-False, 

S29 y v) 


.Faster-R CNN 
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Faster-R CNN cu Ja‏ لاكتشاف الخلایا 

لقد تخطيت هنا شرح كيفية عمل Faster-RCNN‏ فهناك الكثير من الأدبيات التي تتناول 
الخوارزمية. أذكر فقط أن Faster-R CNN‏ تستخدم شبكة اقتراح المنطقة Region Proposal‏ 
Network (RPN)‏ التي تنشئ مقترحات المنطقة لشبكة الكاشف Detector‏ التي تقوم باكتشاف 
الكائن الفعلي. ومن ثم فإن دالة الخطأ loss function‏ لشبكة Faster-R CNN.‏ تجمع بين 
المساهمات من الانحدار regression‏ (تحديد الخلايا مع مربعات الاحاطة) ومهام التصنيف 
classification‏ (تعيين فئة لكل خلية المحددة (localized cell‏ يمكن تثبيت Faster-R CNN‏ 
من .https://github.com/kbardool/keras-frcnn‏ يعد تدريب نموذج Faster-RCNN‏ 
سهلاً مثل الكتابة: 


python wrain Crenn OM -0 simple > AOI > E E e == 
num epochs 500 


هنا annottxt"‏ هو ملف التعليق التوضيحي الذي تم إنشاؤهفني القسم السابق. بشكل افتراضي» 
يستخدم Jg Faster-RCNN‏ التعلم باستخدام أوزان من .ResNet50‏ استغرق تدريب Faster-‏ 
RCNN‏ على 45 صورة مع 322 من فثات 1071116011 المشروحة و 306 Not Nucleoli‏ ما يقرب 
من 6 ساعات لكل فترة epoch‏ على الكمبيوتر المحمول الخاص بي باستخدام 4 نوى لوحدة المعالجة 
المركزيةء لذلك تمكنت فقط من الانتظار لمدة 35 فترة. يبدو أن منحنيات التعلم توضح أن مهمة 
التصنيف وصلت إلى التشبع saturation‏ بينما كان الانحدار (تحديد الخلايا) بعيدا عن الوصول إلى 
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لعمل تنبؤات حول مجموعة الاختبار باستخدام 107127 CSS. Faster-R‏ ببساطة: 

python test frcnn.py -p test 
هو المجلد الذي يحتوي على الصور من مجموعة بيانات الاختبار. دعونا نعرض‎ "test هنا "اختبار‎ 
Nucleoli gas صورة اختبارية للتحقق من مدى نجاح النموذجفي اكتشاف الخلايا بالبروتين المعبر‎ 
(ليس فئة‎ Nucleoli تحتوي على البروتين المعبر عنهفي‎ Y والخلايا التي‎ (Nucleoli (فئة‎ 
:(Nucleoli 


INUCIEeOII: 2I 


Nucleoli: 97 


الصوية الأصلية (يسار) والصورة بعد تطبيق اكتشاف كائن Faster-R CINNN‏ (يمين) 


هناء على اليسار صورة الاختبار الأصلية. من الواضح أن خليتين تحتويان على بقع خضراء زاهيةفي 
الوسط تلك هي النوى التي تظهر بسبب البروتين محل الاهتمام الذي يظهر تعبيرًا قويّافي هذه «alea‏ 
لذلك يجب أن تنتمي هاتان الخليتان إلى فئة Nucleoli‏ . لا يبدو أن باقي الخلايا تحتوي على البروتين 
المعبر gas‏ مناطق 171016011 لذا يجب أن تنتمي إلى فئة Not Nucleoli‏ على اليمين توجد صورة 
الاختبار مع المربعات المحيطة وتسميات الفئة المحددة بواسطة نموذج Faster-R CNN‏ المدرب. 
هنا يمكننا أن نرى أن النموذج اكتشف بشكل صحيح خليتين بهما بقع خضراء مرثيةني مناطق 
Nucleoli‏ بينما يبدو أن المربع المحيط الثالث هو تنبؤ إيجابي خاطئ «false positive prediction‏ 
وليس من الواضح بالضبط ما الذي اكتشفه النموذج بثقة عالية (احتمال 91 /): يشتمل مربع الاحاطة 
على خلايا متعددة وعلى الرغم من وضع تسمية فئة Nucleoli!‏ النموذج, فإننا لا نلاحظ الخلايا 
ذات النوى المرئية داخل مربع الاحاطة. 
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توضح هذه الصورة انطباعي العام حول استخدام Faster-R CNN‏ لاكتشاف الخلايا: فهي ليست 
sl»‏ مثاليةفي تحديد الخلية «cell localization‏ ولكن قد يؤدي المزيد من التدريب إلى تحسينها. 
دعونا نرى ما إذا كان Mask-R CNN‏ يمكنه تحسينه. 


تدريب Mask-RCNN‏ لاكتشاف الخلايا 

ينتمي Mask-RCNN‏ (بالإضافة إلى (Faster-RCNN‏ إلى عائلة RCNN‏ من الشبكات 
العصبية الاصطناعية المعروفة بدقة (à lel‏ اكتشاف الكائنات object detection‏ مقارنة بالعاتلات 
الأخرى. مثل SSDs YOLO‏ والتي لا أغطيها هنا. بالإضافة إلى اكتشاف الكائن» يسمح Mask-‏ 
RCNN‏ أيضًا بتجزئة الكائن USJ object segmentation‏ لن نستخدمه هنا. يمكن تثبيت 
Mask-RCNN‏ من Us. https://github.com/matterport/: Mask RCNN‏ من السھل 
جد تشغيل Faster-RCNN‏ (يحتاج بشكل أساسي إلى إعداد ملف التعليقات التوضيحية 
annotation file‏ فقط). يتطلب Mask-RCNN‏ المزيد من البرمجة» لذا يرجى التحقق من نوتبوك 
Jupyter‏ الكامل على github‏ الخاص بي للحصول على مزيد من التفاصيل. أشرح هنا الخطوات 
الرئيسية لسير العمل الذي يتبع بشكل أساسي هذا البرنامج التعليمي الممتاز. تتمثل خصوصية Mask-‏ 
CNN‏ ۸ف أن البيانات تتم معالجتها بواسطة كائن مجموعة البيانات الذي سيتم استخدامه لتزويدهفي 
Mask-R CNN‏ للتدريب والاختبار. 


from os import listdir 

from numpy import zeros 

from numpy import asarray 

from mrcnn.utils import Dataset 


class HPADataset (Dataset): 


cer oad cderaser (selt, dataset cs ES easi ise) Es 
gelr add clases Saa SOE, l, "ede 
gelr ede elass (Coe EEE, A, NCE الك ال‎ 
annotations dir - dataset dir 1 'train annot/' 
images dir = dataset dir + 'train/' 
for i,filename in 
zip(range(len(listdir(images dir))),listdir(images dir)): 
image id > filename[:-4] 
anb ig train eme) 3L >= 40s 
continue 
lf not rs train and 1 « 40; 
continue 
img path > images dir * filename 
anngpathe-canmotateonsmduretimagesidaspesems 
self.add image('dataset', image id-image id, 
path-img path, 


annotation-ann path) 


def load mask(self, image id): 
info = self.image info[image id] 
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path = info['annotation'] 
boxes, w, h, my classes - extract boxes (path) 
masks = zeros([h, w, len(boxes)], dtype-'uint8') 
eless ids = listh) 
for i in range (len (boxes)): 
box = boxes[i] 
row S, row e = box[1], box[3] 
COL i GOL e = 0اعدة5‎ 7 OZ] 
masks[row s:row e, col s:col e, 
ii my Classes i] NI GOMMA 


[En 
1 
p 


class ids.append(self.class names.index('Nucleoli!')) 
else: 
class ids.append(self.class names.index('Not 
Nucleoli')) 
return masks, asarray(class ids, dtype-'int32"') 


def image reference(self, image id): 
info = self.image info[image id] 
return info['path'] 


ram See = HERA EAS) 

train set.load dataset('/HPA/', is train-True) 
train set.prepare() 

print('Train: $d' $ len(train set.image ids)) 


Ee SE Set -OHPADdtaseb 

test set.load dataset('/HPA/', is train-False) 
testa Ser preparel) 

peime Mese. denies Set mege tesh) 


نحن هنا نهدف إلى اكتشاف الكائن بدلاً من التجزتة. لذلك سنتعامل مع مربعات الاحاطة كأقنعة 
masks‏ لذلك سيتم تحميل load mask" Jl»‏ الواقع إحداثيات مربعات الاحاطة. يمكننا عرض 
صورة تدريب مشروحة عشوائية باستخدام دالة "display instances"‏ العملية من :Mask-R CNN‏ 


from mrcnn.visualize import display instances 
from mrcnn.utils import extract bboxes 


image id - 5 

image > train set.load image(image id) 

mask, class ids, X = train set.load mask(image id) 
bbox = extract bboxes (mask) 

display instances(image, bbox, mask, class ids, 
train set.class names) 
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Nucleoli 


T- Not Nücleoli 


Not Nucleoli 


Not Nucleoli 


Not Nucieoli 


E 


Mask-R. CNN إعداد الصورة المشروحة للتدريب باستخدام‎ e 


transfer learning سنستخدم نقل التعلم‎ .Mask-RCNNN كل شيء جاهز لتدريب نموذج‎ oW 
pre-trained لاكتشاف الكائنات المدربة مسبقًا‎ Mask-R CNN ونبدأ من الأوزان من نموذج‎ 


.COCO UL. على مجموعة‎ object detection 


from mrcnn.config import Config 
from mrcnn.model import MaskRCNN 


class HPAConfig (Config): 
NAME = ROA كك‎ 
$t Number of classes (background * Nucleoli f Not Nucleoli) 


NUM CLASS] 


mís c» JE xp db xe 1 


# Number of training steps per epoch: number of images in the 


training set 


STEPS P 


ER 


EPOCH = 40 


config - HPAConfig() 


التعلم العميق واستخداماته في المعلوماتية الحيوية 186 


model - MaskRCNN (mode-'training', model dir-'/HPA/', config-config) 
model.load weights('/HPA/mask rcnn coco.h5', by name-True, 
exxedlbelsc [wee elass Jhon, Vineis BOOS Te, 
"mrcnn bbox", "mrcnn mask"]) 
modest asi الله عدا‎ Set, TESE SEE, 
learning rate-config.LEARNING RATE, 
pochs-5, layers-'heads') 


كان تدريب Mask-R CNN‏ أسرع بشكل كبير مقارنةً ب Faster R CNN‏ استغرقت 5 8 واحدة 
ساعتين فقط X3)‏ سرعة مقارنة ب (Faster-R CNN‏ على الكمبيوتر المحمول الخاص بي مع 4 
نوى من وحدة المعالجة المركزية» وتوقفت عن التدريب بعد 5 فترات فقط لأن نتائج الكائن كان 
الاكتشاففي مجموعة بيانات الاختبار بالفعل أكثر من مرض. هنا للمقارنةء أقدم صورة الاختبار الأصلية 
(على اليسار) والصورة مع الثقة العالية (أكثر من 170 احتمال) مربعات الاحاطة وتسميات الفتات 
الموضوعة بواسطة نموذج Mask-R.CNIN‏ المدرب. 


الصورة الأصلية (يسار) والصورة بعد تطبيق اكتشاف كائن Mask-R CNN‏ (يمين) 


نلاحظ زيادة مذهلةني دقة تحديد الخلاياء ويبدو أن جميع مربعات الاحاطة تحتضن الخلايا بشكل 
مثالي تقريبًا. يبدو أن إحدى الخلايا تحمل تسمية خاطئة "Nucleoli'‏ على الرغم من عدم وجود بقع 
خضراء واضحة يمكن ملاحظتها داخل النواة. ريما سيستفيد النموذج من المزيد من التدريب. بشكل 
«ele‏ يُظهر Mask-RCNN‏ تحسنًا GÓ pale‏ اكتشاف الخلايا مقارنةً ب .Faster-R CNN‏ 

يمكن الآن استخدام نموذج Mask-RCNN‏ المدرب هذا لإجراء مسح ضوئي عالي الإنتاجية 
high-throughput‏ للصور من أجل التشكل الخلوي الخاص special cellular morphology‏ 
(مع البروتين das padl‏ مناطق (3Nucleoli‏ هذه الحالة بالذات) دون فحص بصري visual‏ 


inspection 
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الانستنتاج 

في هذا المنشور. تعلمنا أن الفحص المجهري الآلي ينتج كميات كبيرة من بيانات الصور الرقمية التي 
تعتبر مناسبة بشكل مثالي للتحليل باستخدام التعلم العميق. يعد اكتشاف الأشكال الخلوية cellular‏ 
morphologies‏ مهمة صعبة على الرغم من توفر الكثير من الادبيات والنماذج. اختبرنا نماذج اكتشاف 
الكائنات Faster-R CNN‏ و Mask-R.CNN‏ باستخدام صور مشروحة بفتات متعددة من 
.Human Protein Atlas (HPA)‏ تفوق dMask-RCNN‏ الأداء على Faster-R.CNNN‏ من 
حيث جودة وسرعة اكتشاف نوع الخلية. 


المصدر: 


https://towardsdatascience.com/deep-learning-on-microscopy -imaging- 
865b521ec47c 
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13( التعلم العميق على جينات الإنسان البدائي Deep Learning on‏ 
Neanderthal Genes‏ 
(الكشف عن مناطق أصل إنسان نياندرتال من خلال التعلم العميق) 

هذا هو المنشور السابع من عمودي التعلم العميق لعلوم الحياة حيث أقدم أمثلة ملموسة عن كيفية تطبيق 
التعلم العميق الآنفي علم الأحياء الحسابي Computational Biology‏ وعلم الوراثة Genetics‏ 
والمعلوماتية الحيوية Bioinformatics‏ المنشورات السابقة» أوضحت كيفية استخدام التعلم 
العميق للحمض النووي القديم Deep Learning for Ancient DNA‏ وبيولوجيا الخلية المفردة 
Single Cell Biology‏ وتكامل بيانات «OMICSs Data Integration OMIC‏ والتشخيص 
السريري Clinical Diagnostics‏ والتصوير المجهري -Microscopy Imaging‏ سنغوص des!‏ 
التاريخ المثير للتطور البشري History of Human Evolution‏ ونتعلم أنه من السهل استعارة 
المنهجية من معالجة اللغة الطبيعية Natural Language Processing (NLP)‏ وتطبيقها على علم 
الوراثة السكانية البشرية من أجل استنتاج bts‏ تدخل الإنسان البدائي Neanderthal‏ 
++ الجينوم البشري الحديث. 


تاريخ موجز: خارج أفريقيا 

عندما هاجر أسلاف البشر المعاصرين من إفريقيا ما بين 50000 و70000 سنة» واجهوا إنسان 
نياندرتال Neanderthals‏ ودينيسوفان .Denisovans‏ وهما مجموعتان من أشباه البشر القدامى 
الذين سكنوا أوروبا وآسياني ذلك الوقت. نحن نعلم أن البشر المعاصرين تزاوجوا مع كل من إنسان 
نياندرتال ودينيسوفان نظرًا لوجود دليل على وجود الحمض النووي الخاص بهمني جينومات البشر 
المعاصرين من أصل غير أفريقي. أصبحت هذه التطورات الجينية العظيمةفي تاريخ التطور البشري 
ممكنة بسبب تسلسل جينومات إنسان نياندرتال ودينيسوفانني عامي 2010 و2012. على التوالي» من 
قبل مجموعة .Svante Pääbo‏ 


7 NX A 35 
2010 Draft Neanderthal Genome Sequenced 
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كانت هناك محاولات قليلة لاستنتاج المواقع الدقيقة لشرائح الحمض النووي الموروثة من إنسان 
نياندرتال ودينيسوفان. لقد استخدموا موارد الجينوم المختلفة مثل مشروع 1000 جينوم وحسبوا 
مقاييس مختلفة للتشابه المحلي لجينوم غير أفريقي تجاه جينوم الإنسان البدائي عالي الجودة والتباعد 
فيما يتعلق بالجينومات الأفريقية (الشكل الأيمن أدناه). 


Human chromosomes with Test 
highlighted segments of 
Neanderthal introgression 


African EEE 


١0 


Test [ 


African Æ 


Neanderthal 

: Test 
FILET] T a a RITTER I kil, a ERIT. j cios chi 

L NEN AAEN Ai CIuh RP T.i] African 


مقاييس التشابه هذه (إحصاءات موجزة) على الرغم من كونها ADU‏ للتفسير وفعالة تؤدي إلى فقدان 
المعلومات لأنها تحاول التقاط جزء من الحمض النوويني رقم واحد دون النظرفي التسلسل المرتب 
للنيوكليوتيدات نفسها. تستخدم المحاولات الأخرى لمسح إدخال الإنسان البدائي عبر الجينوم نموذج 
ماركوف المخفي Hidden Markov Model (HMM)‏ وهو نموذج بلا ذاكرة لا يفسر مرة أخرى 
الارتباطات طويلة المدى بين النيوكليوتيدات على طول تسلسل الحمض النووي. هذا هو المكان الذي 
يمكن أن تكون فيه قوة التعلم العميق لمعالجة التسلسلات الجينومية الأولية والاستفادة من الذاكرة 
الطويلة لرابط النوكليوتيدات عبر الجينوم مع CNINs; RNs / LSTMS‏ مفيدة بشكل لا يصدق. 


إمكانات التعلم العميق لعلم الجينوم القديم 

في الوقت الحالي» يتم تجاهل التعلم العميق بشكل أساسيفي علم الأحياء التطوري Evolutionary‏ 
Biology‏ على الرغم من إمكاناته الكبيرة للعمل مع بيانات الجينوم التي تمثل أحد مصادر البيانات 
الرئيسيةفي مجالات العلوم التطورية الحالية وأبحاث الحمض النووي القديم. تستخدم المحاولات 
الأخيرة بيانات الجينوم المحاكية simulated genomic data‏ على الرغم من توافر بيانات الجينوم 
الحقيقية التي غالبًا ما تحتوي على مناطق مشروحة بوظيفة بيولوجية مفهومة جيدا. التعلم العميق 
مناسب بشكل مثالي للعمل مع علم الجينوم Genomics‏ وعلم الجينوم القديم Ancient‏ 
Genomics‏ لمجرد أن جينوم واحد هوني الواقع بيانات كبيرة one genome is actually a Big‏ 
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1000 من‎ stretches لإدراك ذلك. فكر فقطفي تقطيع الجينوم الطويل 3 * ”10 إلى امتدادات‎ Data 
نيوكليوتيد والتي تجلب أمثلة تدريبية 3 * 106 لاستخدامهاني التعلم العميق بشرط أن يكون التعليق‎ 
DNA يمكن اكتشافه لكل امتداد من امتدادات الحمض النووي‎ (labels التوضيحي (التسميات‎ 
هذه كمية هائلة من بيانات التدريب!‎ stretches 


a Curate data b select architecture, train c Evaluate d interpret 
Sequence Label CNN 
: j ; Predicted 
و‎ 
Tan 
raining — 
جل‎ ý 
: Precision = TP 
Validation TP + FP 
Recall = TP 
TP + FN 


Feature importance 


| © Internal unit © Output | 


e AA a Sd eau ise us cse 
1D Convolutional Neural السابقة. هناك استخدمت شبكة عصبية تلافيفية أحادية الأبعاد‎ 
للتسلسلات. سأقوم هنا‎ one-hot-encoded EL. وتمثيلًا مشفرًا واحدًا‎ Network (CNN) 
بتوضيح طريقة أخرى لتمثيل تسلسل الحمض النووي للإدخالفي التعلم العميق. يرجى إلقاء نظرة على‎ 
ومع ذلك ليس هذا ما يقصده الناسفي علم‎ text الشكل الأيسر أدناهء وهذا ما نعنيه عادة بالنص‎ 
الجينوم بالنص. يظهر ما يقصدونه بالنص إلى اليمين. تسلسل الحمض النووي هو نص! يبدو الأمر‎ 
ماذا لو أخبرتك أنني أرى جيئًا‎ strings رؤية الأشياءفي سلاسل نصية‎ las ولكن مع مرور الوقت‎ Des 
Type2 2 بقوة بمرض السكري من النوع‎ Ús É cul JA هناك؟ ماذا لو أخبرتك‎ gene 

Diabetes (T2D)‏ ومن المحتمل أننا ورثنا هذا الجين من إنسان نياندرتال؟ 


ماذا يقصد الناس عادة بالنص (يسار)ء مقابل ما يقصده علماء المعلومات الحيوية بالنص (يمين): 
جين SLC16A11‏ 
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الآنء إذا كان تسلسل الحمض النووي عبارة عن نصء فيمكننا تطبيق جميع الأجهزة من معالجة اللغة 
الطبيعية (NLP)‏ على مثل هذه النصوص. ومع eS‏ أين الجملني نصوص الحمض النووي وأين 
الكلمات؟ إذا توقعنا ما إذا كانت مجموعة من تسلسلات الحمض النووي (يمكن اعتبار المجموعة 
(Ga bunch‏ موروثة من إنسان نياندرتال أم لاء فيمكن اعتبار تسلسل DNA‏ واحد من المجموعة 
جملة من النصء و kK-mer‏ (التسلسل الفرعي (sub-sequence‏ ككلمة. 


Sequence 
GATCGTAC 
Neanderthal introgressed vs depleted b. vii 
NLP: Bagol Words 


5 


[GATCGITAC 
1ه‎ 
GA 

GATEGTAG 
Sentence / Text 


GATCG ATCGT TCGTA CGTAC 


word word word word 


EEE EEE EET 


EJERE à 


تسلسل الحمض النووي عبارة عن جملة يمكن تقسيمها إلى ck-mers‏ ويمكن اعتبار k-mers‏ 
محددة المسافات ككلمات 


بمجرد تحويل تسلسلات الحمض النووي إلى k-mers‏ محددة بمسافة / كلمات space-delimited‏ 
ck- mers / words‏ نكون قد انتهينا. يمكننا الآن اللجوء إلى تقنيات المعالجة اللغوية الطبيعية المتقدمة 
واستخدامها على سبيل المثال نموذج بسيط من حقيبة الكلمات Bag Of Words‏ لمقارنة ترددات 
الكلمات / frequencies of words / k-mers k-mers‏ بين التسلسلات الموروثة من إنسان 
نياندرتال وتسلسل السلالة القديمة المنضبة .depleted archaic ancestry‏ 

تحضير التسلسلات لتحليل المشاعر 

الآن دعونا نوضح كيفية استخدام التعلم الآلة/العميق ومعالجة اللغة الطبيعية (NLP)‏ عمليًا لتحديد 
مناطق إدخال الإنسان البدائيفي الجينوم البشري الحديث. سأقوم هنا بصياغة المشكلة التالية لحلها: 
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أرني جزءا من الحمض النووي الخاص بك وسوف أتوقع مدى احتمالية توريثه من إنسان 
نياندرتال 


كمجموعة بيانات تدريبية» سنستخدم إحداثيات المناطق المرشحة لإدخال الإنسان البدائي 
Neanderthal introgression‏ من Vernot‏ و Akey‏ . علم 2016 تم تحديده باستخدام - * 5 
statistic‏ على الأوروبيين والآسيويين من مشروع Genomes‏ 1000( يمكن تنزيل البيانات من هنا. 
استخدمنا ملف أنماط الفرد المتقدم  introgressed haplotypes file‏ 
 LL.callsetEUR.mr 0.99.neand calls by hap.bed.merged.by chr.bed‏ واخترنا 
إحداثيات فريدة فقط. لذلك انتهى بنا المطاف مع 83601 منطقة من أصل إنسان نياندرتالفي 
الأوروبيين المعاصرين. دعونا نقرأ الإحداثيات ونلقي نظرة على توزيع الطول لمناطق تقدم الإنسان 
SI‏ 
es 4‏ 


import pandas as pd 

import seaborn as sns 

import matplotlib.pyplot as plt 

intr coords - pd.read csv('Akey intr coords.bed', header - None, 
Sep = UE) 

imer MEMES = imer COOLS. LOC, 2l-imner coords LOC, 1] 
sns.distplot(intr lengths) 

plt.title("Distribution of Lengths of Neandertal Introgressed 
Regions", fontsize - 20) 

plt.xlabel("Lengths of Neandertal Introgressed Regions", fontsize - 
20) 
plt.ylabel("Frequency", fontsize - 20) 


Distribution of Lengths of Neandertal Introgressed Regions 
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Lengths of Neandertal Introgressed Regions 
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deo إلى 1.2 میا‎ eub Je 10 من‎ cli الرتسان البدای‎ oa] شرل مقاط‎ of ie ol Us, 
الثانية بمتوسط ~ 100 كيلو بايت. سنقوم الآن باستخدام هذه الإحداثيات واستخراج التسلسلات‎ 
ويمكن تنزيله من‎ fasta الفعلية من نسخة 1819 من الجينوم المرجعي البشري الذي له تنسيق ملف‎ 
لاستخراج التسلسل ولكن من الأسرع القيام بذلك باستخدام‎ Python هنا. يمكننا بالطبع استخدام‎ 

18 المستندة إلى Coe‏ 


import subprocess 
a = 0 
wawa لان )ا سوه‎ imer تمد فتك‎ 6227 FE) as mos 
for i in range(intr coords.shape[0]): 
COOLE 3 str leti (inte COOLS, AEE, O) se 
t sterline Coorde s iloefi, L) 
gtr (iate حك ممت‎ Miceli, 21 y 
SUODEOCE SSE EUR LL 222205625 a MOLI EAI, 
SEE ) 4632 لك‎ lS Sreco = زم‎ 
aca mr il 
if a%10000 == 
print('Finished ' + str(a) + ' Neanderthal introgressed 
haplotypes') 


سنقوم الآن ببناء اطار بيانات Pandas‏ بإحداثيات أجزاء خارج إحداثيات إدخال الإنسان البدائي. لهذا 

الخغرض» سنقوم بشكل عشوائي برسم امتدادات الحمض النووي DNA stretches‏ بنفس طول مناطق 

الإدخال على نفس الكروموسوم والتحقق مما إذا كانت هذه الامتدادات تتقاطع مع أي من المناطق 

المتقدمة .introgressed regions‏ بهذه الطريقة. نقوم ببناء مجموعتين من الإحداثيات غير 
المتداخلة: المناطق المتقدمة introgressed‏ والمستنفدة depleted‏ 

import numpy as np 

Chr sizes = pored CSUN ROO Gz rait, hedder = None, SEO = 

UN E 

EME sizes = CRE sizas Crool; 27 Aly axis 


list = Il; stare lise = [lg eel list =‏ عله 
OEE lengens = LIENE coords loela, 2]‏ 


= 1) 
m 


imer XeXoxoxerlsi c at eee 


11) 
a = 0 
for i in range(intr coords.shape[0]): 


GRE Qf — 
iare عرس كك )كك م مت‎ EOFS OSD [inti coords at ee i O] 
overlap - True 
while overlap -- True: 
reg start = np.random.randint(1, int(chr sizes[chr sizes[0] 


NEE COWES. loeli Oll LOC) 
EC GAC = EC Start r inti Llencmha [i] 
tor 35 12 range (ene ا غك‎ 22-252 [OE 
bil = ene (Es AOC [3 p L] 
(Gne عله‎ LOC 
zeg tart > bll emd rec start < b2) or (zeg ens > oi 
) iue W 


Na Il 


and reg end « b 
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(lou > reg stare emd lob < reg CAC) (xe (OZ > 76g Start 
and 52 < reglend): 


overlap = True 
break 

else: 
overlap = False 


Car list agend (iner Coarda dleei; 0) 

start list.append(reg start) 

end list.append(reg end) 

acari 

if a%10000 == 0: 

print('Finished H str(a) * ' Neanderthal introgressed 

haplotypes') 
depl coords = pe 3 عسوت ضوت‎ )) 70" 8 che list, "IUS stare Je, "ZU 
end list]) 
depl Cod. EO CSU (Ake Ceol كك دم مت‎ oesi index = Pelse, hecer = 
False, sep = "Nt") 


بمجرد بناء إطار البيانات الذي يحتوي على مناطق من أصل إنسان نياندرتال المنضب يمكننا مرة أخرى 
استخراج تسلسل الحمض النووي الفعلي من hg19 fasta‏ المطابق للأجزاء المستنفدة باستخدام 
«samtools‏ هنا أتخطى هذه الخطوة للإيجاز ولكن تحقق من نوتبوك Jupyter‏ الكامل على github‏ 
لرؤية التفاصيل. بإلقاء نظرة فاحصة على التسلسلات المتقدمة introgressed‏ المستخرجة والمستنفدة 
4ه المستخرجة. يمكننا أن نلاحظ عددًا قليلاً من التسلسلات المحتوية على النوكليوتيدات. 


هذه هي البيانات المفقودة missing data‏ علم الجينوم» أي المواقف التي لم يتم حلها بواسطة 
تقنيات التسلسل. من أجل عدم السماح للبيانات المفقودة بالتأثير على تحليلناء فقد حذفت التسلسلات 


التي تحتوي على نوكليوتيد IN‏ واحد على JPI‏ ويمكن القيام بذلك :BioPython (ies‏ 


from Bio import SECLE 
imer Cile = Holo inci zsglons Tat 
capl file = Mol cemil zecions Ten 
a= gs x e 
عاضا‎ cse ) د لان‎ imer elesem tat, tat) as 
intr out,open('hg19 depl clean.fa', 'a') as Cepl out: 
Tow dace, Cepl iq vegs((SeenO.jesese(abaExe rile, rastat) r 
Segiok parse (depi miea sra 
pper iner = AmE. SEO woer) 
upper depl - depl.seq.upper() 
e — m x d 
if a$10000 == 0: 
print('Finished ' * str(a) * ' entries!) 
iE UNY not ia دك هرضي ديات‎ imer) camo! VIN" mot m 
str(upper depl): 
الوك‎ 2 Sec = ISE mm 
Sel OR WEN EE RENEE, inte Owe, rasta") 
depl Sed = Upper depi 
SEO wr HEE (AES, depl out, 'fasta") 
i-i-c*1l 
else: 
continue 
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print('We have processed ' + str(a) + ' entries and written ' + 
ETE (aL) 
+ ' entries to two fasta-files') 


الآن تم إعداد البيانات لإدخالهاني تحليل المعالجة اللغوية الطبيعية. دعنا ننتقل إلى نموذج حقيبة 
الكلمات da! Bag Of Words‏ أي النظرني الاختلافني تكرار k-mers‏ بين ت = 
Neanderthal‏ المقدمة مقابل المستنفدة. 


JI n J -‏ ^ اعر: [o oe oe‏ مقابل 7 0 
lins‏ بتنسيق التسلسلات من ملفي fasta‏ كنصوص مع k-mers‏ محددة المسافات ككلمات. بسبب 
قيود ذاكرة الكمبيوتر المحمول» قرأت فقط 10000 نيوكليوتيد أولّا م كل تسلسلء ثم استخدمت دالة 
5 التي تقسم كل تسلسل إلى k-mers‏ ودمجت k-mers‏ بطريقة محددة بمسافة» (QUA‏ 

النهاية. كان لدي قائمة الجملء كل منها يمثل قائمة الكلمات / .k-mers‏ 


from Bio import SECLE; 
from Bio.Seq import Seq 
Wace mile = oilo imer Clean a, cepol Ele = Vagle Cepl elesem. ten p 
e = 0 
intr segs = []; depl seqs = [] 
EOE wate, Cepl im ZIPS perse (imer zile, EASES), 
Geco parse (Cepl mile, rastai): 

cutoff = 10000 

my imer SOG = SEE (iner, Sec) 101551583215 [ 

my لمعك‎ Sed = SEF (ce pil secreto 

intr seqs.append(my intr seq) 

depl seqs.append(my depl seq) 

e =e + 1 

if e$20000 == 0: 

print('Finished ' ١ str(e) * ' entries!) 


def getKmers (sequence, size): 


return [sequence[x:x-*size].upper() for x in range (len (sequence) 
- size + 1)] 
kmer = 5 
NEE certs = [l "Jet (Getmers (i; fames) ( zor 1 im imti ا‎ 
Cepl texte = JD" 7 Join (get mersi, Mer) Sor 1 in Cepl Segs] 


الآن يمكننا أن نتخيل بسهولة 5 (k-mer col»‏ متواليات Neanderthal‏ المتقدمة والمستنفدة 
باستخدام فئة Python (Counter‏ من أجل عد الكلمات بكفاءة. 


from collections import Counter 

import matplotlib.pyplot as plt 

fig = plt.figure(figsize = (20,18)) 
fig.subplots adjust(hspace = 0.4, wspace = 0.4) 


plr SUELO db. i) 

Hace sentences = [icem splice Y) Or item ia Imer CETS] 

D = dict(Counter([item for sublist in intr sentences for item in 
sublist]).most common(20)) 
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plt.bar(range(len(D)), list(D.values()), align-'center') 
plt.title('Most Common K-mers for Neanderthal Introgressed 
Regions', fontsize - 20) 

plt.ylabel("Counts", fontsize - 20); plt.xticks(rotation - 90) 
plt.xticks(range(len(D)), list(D.keys()), fontsize - 20) 


plr ان مضه‎ (y d 25 

Cepl sentences = [icem golire "for iren im الام مك‎ tewas] 

D = cier (Coumcer (licen تدمع‎ Svolist ii depl Sentences FOE brem a 
sublist]).most common(20)) 

plt.bar(range(len(D)), list(D.values()), align-'center') 
plt.title('Most Common K-mers for Neanderthal Depleted Regions', 
fontsize - 20) 

plt.ylabel("Counts", fontsize = 20); plt.xticks(rotation = 90) 
plt.xticks(range(len(D)), list(D.keys()), fontsize - 20) 


Most Common K-mers for Neanderthal Introgressed Regions 


Most Common K-mers for Neanderthal Depleted Regions 


n 


IEIEEIBEPPRPEREREIEG IE 


على الرغم من أن A-‏ و T-rich k-mers‏ يبدو أنهما أكثر شيوعا لكل من مناطق النياندرتال المتقدمة 
والمستنفدة» إلا أننا نلاحظ اختلافات صغيرةفي تعداد k-mer‏ بين الحالتين والتي يمكن أن تكون 
مؤشرًا لتكوين k-mer‏ غير المتطابقفي التسلسلات المتقدمة والمستنفدة. بعد ذلك نقوم بترميز 
الكلمات / k-mers‏ كأعداد صحيحة مع فئة CountVectorizer‏ التي تبني ببساطة مفردات النص 
(عدد k-mers‏ الفريدة) وتحسب تكرارات كل كلمة / امص-عفي كل جملة / تسلسل. 


import numpy as np 
from sklearn.model selection import train test split 
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from sklearn.feature extraction.text import CountVectorizer 

merge texts = intr texts | depl texts 

leisels = LISE mpromnesiülientenete sse SON NES 

list(np.zeros(len(depl texts))) 

cv = CountVectorizer )( 

X = yorit Cans OEM Mere CSTs) 

o EIA x te od aya)‏ در 

X erein, X Cese, y Cren, y CEST = train test splice Tabele, 
TeSt Size = 


random state - 42)‏ ,0.20 
بعد أن قمنا بتقسيم مجموعة البيانات إلى مجموعات فرعية للتدريب والاختبارء نحدد شبكة عصبية 


Stochastic Gradient (425 باستخدام‎ feed-forward neural network امامية التغذية‎ 
(L1 weight regularizer) الوزن المنظم‎ L1 و‎ Descent (SGD) + Momentum 


from keras.models import Sequential 

from keras.regularizers import 12, 11 

from keras.callbacks import ModelCheckpoint 

from keras.optimizers import SGD, Adam, Adadelta 
from keras.layers import Dense, Flatten, Dropout 


model = Sequential )( 
model.add(Dense(3000, input shape - (X.shape[1], ), activation - 
'sigmoid', 

kernel regularizer = 11(0.00001))) 


model.add(Dense(1, activation = 'sigmoid')) 

SGD(lr = 0.0001, momentum = 0.9, nesterov = False)‏ = موه 
medel eompi le (LOSS = Volney Crossencr ooy y ODC zer soc,‏ 
Ter tes Mama vac out dc va‏ 


checkpoint = ModelCheckpoint ("weights.best.hdf5", 
monitor-'val binary accuracy', verbose-1, 
save best only > True, mode - 'max') 
mistory = ocel, ie trenin, y CI adr 
25م ممه‎ = 2007 verbose = U, validation split = 
0,2 barcha sizs = S2; 
shuffle = True, callbacks = [checkpoint] ) 


Model Accuracy Normalized confusion matrix 
Train 
validation 


Predicted label 


True label 


منحنى تدريب دقة MLP‏ (يسار) ومصفوفة الارتباك للتقييم على مجموعة بيانات الاختبار (يمين) 
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وصل النموذج إلى دقة تصل إلى 182.2 على مجموعة بيانات الاختبار التي صنفت تسلسل النياندرتال 
المتقدم مقابل الأصل المستنفد. كانت هذه نتيجة أفضل بشكل واضح مقارنة بالنماذج الخطية linear‏ 
models‏ مثل الانحدار اللوجستي Logistic Regression‏ أو متجهات الآلات الداعمة Support‏ 
Vector Machines (SVM)‏ أو مصئف نايف بايز Naive Bayes Classifier‏ ومع ذلك. وبشكل 
غير متوقع» وصل مصنف الغابة العشوائية Random Forest‏ إلى دقة أعلى بلغت 84.5 نفس 
مجموعة بيانات الاختبار. عند عرض ميزات نموذج الغابة العشوائية). نلاحظ أن مثل k-mers‏ مثل 
TTTTT; CATTT; CAAAA; AAAAA‏ هو الأكثر تنب نحصل على حدس على الفور على 
أن التنبو بمناطق النياندرتال المتدخلة / المستنفدة له علاقة بمحتوى GC / AT‏ لأن أكثر k-mers‏ 
تنبؤية غنية للغاية ب .AT-rich) AT‏ 

import pickle 


import matplotlib.pyplot as plt 
from sklearn.ensemble import RandomForestClassifier 


classifier - RandomForestClassifier(n estimators - 500) 

class karen teat كد‎ Crem, y Crem) 

y predl و لل‎ SSE eR عاك نت م‎ (DS TeSt) 

pickle.dump(classifier, open('RF model Neand Intr vs Depl.sav', 
'wb')) 


importances = classifier.feature importances | 
SEE enpssiditenree-teaturesimpontaneesm ton ELES AM 
classifier eotinetors |; exis = 0) 


indices > np.argsort(importances)[::-1] 

plt.title("Feature importances", fontsize - 20) 

plt.bar(range(X train.shape[1])[0:50], importances[indices][0:50], 
yerr = std[indices][0:50], align = "center") 

plt.xticks (rotation = 90); plt.ylabel('Score', fontsize = 20) 

plt.xticks (range(X train.shape[1]) [0:50], 

np.array (names) [indices] [0:50]) 


Normalized confusion matrix 


m 
mum 


مصفوفة الارتباك لمصنف الغابة العشوائية (يسار) وخصائص الاستيراد التى يهيمن عليها AT-‏ 
(om) rich k-mers‏ 


Predicted label 


ti 0.31 
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من مصفوفة الارتباك لمصنف الغابة العشوائية (AEI)‏ يتضح أن النموذج كان يتمتع بدقة عالية جد 
عند التنبؤ بأجزاء من أصل إنسان نياندرتال المستنفد. ومع ذلك كان أداؤه Gd‏ للغاية (أسوأ من 
الشبكة العصبية)في تصنيف المناطق المتقدمة introgressed regions‏ 


توقع الجينات الموروثة من إنسان نياندرتال 

الآن دعونا نعود إلى مسألة التنبؤ من تسلسل DNA‏ معين سواء كان مورونًا من إنسان نياندرتال أم لا. 
سأقوم هنا بتوليد مثل هذه التنبؤات لجينات ترميز البروتين البشري. لنقم بتنزيل ملف شرح الجين 
RefSeq‏ ل hgl9‏ هناء قم بتنظيفه واستخدام إحداثيات الجينات لاستخراج تسلسلها من ملفات 
الجينوم المرجعي fasta‏ بالمثل لمعرفة كيفية قيامنا بذلك للمناطق المتقدمة والمستنفدة» انظر التفاصيل 
في نوتبوك Jupyter‏ على github‏ مرة أخرى نقوم ببناء نصوص الجينات عبر تسلسل محدد بفراغ ل 
.k-mers‏ 


from Bio import SeqIO 
gene SECS = [l7 gere ide = [Jy a= 0 
tor Gene ia SEGO perse ) 019 gene Clea tet, EASE): 


cut = 8800 

if len(str(gene.seq)) < cut: 
continue 

S gene - str(gene.seq) [0:cut] 


if s gene.count('A')»0 and s gene.count('C')»0 and 
S gene.count('G')»0 ١ 
andEssgeneseount emi 
gene seqs.append(s gene) 
gene ids.append(str(gene.id)) 
ك‎ e gt owe Jb 
if 3510000 == 
print('Finished ' -* str(a) * ' genes") 


def getKmers (sequence, size): 
return [sequence[x:x-*size].upper() for x in range (len (sequence) 
- size + 1)] 


kmer = 5 
gene texte = I FONTS mers (i, Mer) or sb im gene SESI 


بعد ذلك. سنستخدم مصنف Random Forest‏ المدربين لتوليد تنبؤات لتسلسل الجينات التي تم 
تحويلها سابقًا إلى نصوص. وبالتالي» يتم تحويل نصوص الجينات إلى أعداد صحيحة باستخدام 
.CountVectorizer‏ 

import pickle 


import pandas as pd 
from sklearn.feature extraction.text import CountVectorizer 


classifier = pickle.load(open('RF model Neand Intr vs Depl.sav', 
EOD) 

e = COUNEVECEOETZEE O S6 Gene = Eyo Elt EEAMSEOEMSeENe TSTS) 
gene predictions = classifier.predict(X gene.toarray()) 
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gene predictions prob - classifier.predict proba(X gene.toarray()) 
gene predictions prob 0 - [i[0] for i in gene predictions prob] 
gene predictions prob 1 [SLIDE] tor 3t in gene precdietions Pro] 


gene ids = []; gene symbol = [] 
wien OPen qene TIS ESE, EF) aS STIS 
EO line IAN fimt 
line = line.split('Nt') 
gene ids.append(line[0]) 
gene symbol.append(line[1].rstrip()) 


gene pred df - pd.DataFrame(('Gene': gene ids, Gene Symbol': 
gene symbol, 

Eredi ell: Gene DEedTEEEON SF, 

Heroo Ols gene precier rone orog O, 

dLV 8 Gene PEediecions Dreo JL)‏ كروص ض” 
SOre values ) | erao 1! MEI‏ فك dF = gene pred‏ 2624م gene‏ 


False) 
Gene Gene Symbol Predict Prob 0 Prob 1 Gene Gene Symbol Predict Prob 0 Prob 1 
12554 —— chr3:19988572-20020667 RABSA 10 0032 0568 9274 ır 19:42901280-42912804  LOC101930071 00 0896 0124 
16186 £1v6:961241-1101567 LINCO1622 10 0046 0954 18 €1:1413495.1431584 ATAD3B 00 0.876 0.124 
2966 chr11:4668156-4876716 ORSIE! 10 0066 0934 18318 chvT86147078-66276448 RABGEF! 00 0576 012 
18270 —— chr5:57878871-58155222 RAB3C 10 00%4 09 9412 Chr 19:48958964-48969367 KCNJIA 00 0878 0122 
10923 — chr2:179694484-179914786 CCDC141 10 00%4 090 12785 chr3:47537130-47585198 EPS — 00 0880 0120 
6014 chr14:101355966-101465450 MEGS 10 0100 090 Ano hr12-:6420099.6437672 PLEKHGE 00 0880 0120 
16252 chr6:8435856-8785678 — LOC100506207 10 0138 0864 no chr1:155204239-155214653 GBA — 00 08M one 
2440 — chv10.87359312-88126250 GRID! 10 0136 08564 1744 chr1:235330210-235491532 ARIDAB 00 0884 one 
16251 chr6:8435856-8712526 — LOC100506207 10 0136 OB 1743 chr1:235330210-235490802 ARIDAB — 00 0884 one 
382 — chr1:33231235-33240571 KIAA1522 10 0154 0&6 13 chr1:1288069-1298921 MXRAB 00 oas one 
12301  chr22:32670707-32894818 FBXOT 10 0158 0842 347 chr 11:64948686-64979477 CAPN! 00 ose ons 
19128 —  chr8:17154306-17271040 MTMR? 10 0168 0832 5137 €hr12:123259056- 123311927 CCDC62 00 oss ons 
4853 — chr12:96043031-96067770 PGAMIPS 10 0168 083 17953 ch7-5965777-6010314 RSPHIOS 00 0885 012 
12597 €1v3:29322803-30032809 RBMS3 10 0174 0.626 19927 €1v8:145597704- 145618453. ADCK5 00 0.888 0112 
12598 —— ch/3:29322803.30051886 RBMS3 10 0174 08525 6054 chr14:105056192.105965585 Ct4of8ü — 00 0888 0102 
16047 — chr5:169064251-169510386 DOCK2 10 016 084 7952 cheT:5965771-6010314 RSPH108 00 088 012 
13843 — chr3:191857182-192445388 FGF12 10 0178 082 9047 hr17:73720776-73153809 mos — 00 os% ono 
13842 — chr3:191857182-192126838 FGF12 10 0178 082 19920 h8:145106167-145115606 OPLAH 00 089 0.108 
16878 —— chr6:00340822-80413387 SH3BGRL2 10 0180 0820 11708 cr20:32319566-32380075 ZNF341 00 oas 0106 
3738 — chr11.95523625-85565857 CEPST 10 0182 0818 8634 chv19496490-505343 MADCAM! 00 0898 0102 
10325 €r2:86730553-56790620 CHMP3 10 0.186 0814 1759 het: 2365587 16-236648008. EDARADD 00 0.904 0096 
10326  chr296730553-86948245 RNF103-CHMP3 10 0186 0814 20487 clv9.131857073-131573077 CRAT 00 090 00M 
2238 — chr10:61786056-61900774 ANK3 10 0192 0808 6935 ch 16:66638228-66647796 CMTM3 — 00 096 009 
2239 — chr10.61786056-62149742 ANK3 10 0192 0808 17728 chré md hapS:3144866-3154459 LSM2 00 0908 0092 
2240 ^ chi10:01786056-62332714 ANK3 10 0192 0808 17803 chr qbi hapé:3058814-3068396 LSM2 00 0908 0092 
2241 cw 10:61786056-62493284 ANK3 10 0122 0.808 17608 chr& dbb hap3:3050751-3060344 LSM2 00 0.910 0.090 
3761 chr11:102391239-102401484 MMPT 10 0194 0806 6055 chr14:105956520-105965585 C14orf80 00 0910 0090 
13506 — chr3:147795946- 147805816 LINCO2032 10 0200 080 17513. ch, cox, hap2-3274737-3264332 LSM2 00 091 009 
10404 —— chr2:99235569-99279936 MGAT4A 10 021 0786 16482 chr6:31765169-31774761 LSM2 00 0910 0090 
10405  chr2:99235569-99347589 MGAT4A 10 0214 0786 19906 chB 144873090-144897549 SCRIB — 00 0916 008 


يُتوقع أن يكون للجينات احتمالية عالية (يسار) ومنخفضة (يمين) لتورثها من إنسان نياندرتال 
بهذه ii dll‏ ننتج لكل جين احتمال )1 (Prob.‏ أن يتم توريثه من إنسان نياندرتال وأن يكون E‏ 
بشريًا «Prob 0) CLel‏ یمکننا بسهولة عرض الجينات ذات أعلى 1 Prob‏ (أدنى 0 (Prob‏ وأعلى 
(Prob 1/25) Prob 0‏ يرجى الاطلاع على قوائم الجينات أعلاه. بشكل ملحوظ» من بين 22000 
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الجينية | لمشفرة للبروتين فقطء كان من المتوقع أن يحتوي 477 جينة فقط على | لحمض النووي لإنسان 
نياندرتال. هذه ملاحظة شيقة للغاية» وسوف نعيد النظر فيها لاحقا. 


E 
7% 


تصور K-mer /Word Embeddings‏ 
يمكن تصور مفردات النصوص الجينومية التي تم إنتاجها من خلال ربط k-mers‏ عبر نموذج Word‏ 
Embedding Word2Vec‏ الذي يقدم تخمينات ذكية حول التشابه بين الكلمات dk-mers)‏ 
حالتنا). بمجرد ملاءمته لبیاناتناء يمثل Word2Vec‏ كل k-mer‏ كمتجه كامن 100 بعد. يمكن النظر 
إلى المتجهات على أنها تمثيل رقمي آخر لبياناتنا التي يمكن إدخالهاني أي xum‏ لتقليل الأبعاد 
dimension reduction‏ لمزيد من الاستكشاف. سنقوم هنا بتضمين وتصور باستخدام UMAP‏ 
tSINE;‏ القيم k‏ المستخدمةفي تحليل مشاعر مقدمة الإنسان البدائي مقابل الاستنفاد. يمكننا اكتشاف 
مجموعتين واضحتين من مجموعات .k-mer‏ تظهر نظرة فاحصة أن أحدهما يبدو أنه غني بال k-‏ 
5 الغني ب AT‏ والآخر (الأصغر) يتكونني الغالب من k-mers‏ الغنية ب .GC‏ 

from umap import UMAP 


import matplotlib.pyplot as plt 
from gensim.models import Word2Vec 


kmer = 5 

Sequences = inte seces r Cepl secer sentences = [I] 

for i in range (len (sequences) ) : 
sentences.append(getKmers(sequences[i], kmer)) 


model = Word2Vec(sentences, min count > 2, workers - 4) 
X = model[model.wv.vocab] 


xEneducede MPOR(mWcomponenism = D) oE EEONSEOEM OS) 

umap model = UMAP(n neighbors = 30, min dist = 0.2, n components = 
2) 

umap = umap model.fit transform(X reduced) 

jolies Seules (umeros Olr mmal, dj» هك‎ = t0- enag EAL) 
plt.title('UMAP: All K-mers', fontsize = 20) 

plt.xlabel("UMAP1", fontsize = 20); plt.ylabel("UMAP2", fontsize = 
29) 


words = list (model.wv.vocab) 
for i, word in enumerate (words): 
if word == 'AAAAA': 
pilt, eese EOE, Oly اس خسن‎ 1, U, UO, 265255226 = 07د‎ CG = 
'green') 
elif word == 'CAAAA': 
plt.text(umap[i, 0], umap[i, 1], word, fontsize = 30, c = 
'green') 
elif word == 'CATTT': 
plt.text(umap[i, 0], umap[i, 1], word, fontsize = 30, c = 
'green') 
elif word -- 'TTTTT': 
plt.text(umap[i, 0], umap[i, 1], word, fontsize = 30, c = 


'green') 
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else: 
plt.text(umap[i, 0], umap[i, 1], word, fontsize = 10, c = 


Bed) 


UMAP: All K-mers 


UMAP2 


EI 


EI 


tSNE2 


لقد سلطت الضوء على وجه التحديد من خلال اللون الأخضر على أكثر k-mers‏ تنبؤية 5 G3‏ لمصنف 
Random Forest‏ الذي يميز بين تسلسلات Neanderthal‏ المقدمة مقابل المستنفدة. كما هو 
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متوقع» يقعون Uem‏ مجموعة AT-rich‏ الأكبر. يعد تصور تضمين Word‏ هذا o‏ آخر على 
وجود بعض الهياكل الموجودةفي جمل comer‏ والتي يمكنها التنبؤ بأصل الإنسان البدائي ولها علاقة 
بالتوازن بين أجزاء الحمض النووي الغنية بال AT GC‏ 


التطور يزيل الحمض النووي لإنسان نياندرتال من الجينات 

بتلخيص كل شيء تمت مناقشتهفي الأقسام السابقة» يمكن للمرء أن يستنتج أن وجود أصل إنسان 
نياندرتالفي حمضنا النووي يرتبط بشكل مثير للريبة بمحتوى GC | AT‏ عبر الجينوم. من المعروف 
أن جيناتنا غنية بال GC‏ ومحتوى GC‏ حوالي 47/ مقارنة ب 41./ على مستوى الجينوم» وهو اختلاف 
d eS‏ محتوى GC‏ 


O HAN 


" Adenine 
— 2. Masi doors 


= T Guanine 
Cytosine Nar i N geoxyribose 
Á - increased Thethyationimutallon - decreased me'hylation/mutation 
deoxyribose Oee HUN = increased intron insertion 3 مدت‎ intron insertion 
- chromabn condensation - increased duplicado: 
- pseudogenization . qeu amplification 


عادة ما تكون الجينات البشرية غنية بال GC‏ وهو ما يدل على عدم وجود سلالة نياندرتال 


لذلك يمكننا أن Jis‏ عن مدى تداخل مناطق التقديم introgression‏ واستنفاد depletion‏ الإنسان 
البدائي مع الجينات؟ يمكننا حساب عدد التقاطعات بين الجينات وإحداثيات التداخل 
introgression coordinates‏ مع -bedtools intersect‏ ومع 3( نظرًا oM‏ إحداثيات المناطق 
المستنفدة للإنسان البدائي تم اختيارها مسبقا عشوائيًا (طلبنا فقط عدم تداخلها مع إحداثيات التقديم 
(introgression coordinates‏ يجب أن نكرر إجراء الاختيار عدة مرات لتقدير أهمية التقاطعات. 


import subprocess 

import numpy as np 

import seaborn as sns 

import matplotlib.pyplot as plt 


pern a = [DT 
for k in range(20): 
elm ligi = [HB stere list = [l7 eee liste = [M 
mace lengtns = list (MCE Coords loeis y 2j = 
daer Cordes Llocs; E) 


a=0 
for i in range(intr coords.shape[0]): 
gine gie = 


imer 264 عنس كك | كك ست‎ «etexexaclst EO] terni [intei حك 2ت مت‎ ac exe: Fato O] 
overlap - True 
while overlap -- True: 
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EEE EAE E = 


oo EEC E ECE (Cb, EME (COE _ دام ]| 2228م‎ SIZES |] 011 >> 552 Coors ilochi, 
ONO LN 
Ee eae = Ked SEA r imer enoe MS [fat] 
EOE J im zenge leni (Lt shepel®]) s 
lol = hnr QE loej il? 192 = Gar cf tiloe 2] 
ir (eg start > ol ancl reg stari < O2) Or (reg emel 
> b1 and reg end < b2) ١ 
or (ol > reg tart amel Ol < zeg eme) or (2 > 
Teg SIEAEIE ANd 52 < Tec enc) s 


overlap = True 
break 

else: 
overlap = False 


EME MMSE ASPENS EME CODECS Moe UN) 
start list.append(reg start); end list.append(reg end) 
a= mu 
if 3520000 == 
print('Finished ' -* str(a) * ' Neanderthal haplotypes') 
depl coords = peh Dalal فييك‎ (O OE Car ركاف‎ E etere listy 
"2$ enG listi) 
depl coords to csv (eeg temo ctt; Madex = alse, necer = 
False, sep - "Nt") 


yata CSE RIENCE SEC ES EXE, UyyU) aS Jo 
subprocess.run(['bedtools', 'intersect', '-a', 
Cepl EEO ESE 7 EO, 
"gene coords.txt'], stdout = fp) 
aieyEne = Pd. Head cev A intersects n edi, header = Nore, sepa 
ENE 
print(k, akey n.shape[0]) 


joue abge, (( VR ا ا‎ UE IRURE TR ا‎ II SUSHI EE E Ve ie ATTI Ge VIN RS INSISTE PHUA V I Tagus E) 


perm n.append(akey n.shape[0]) 


plt.axvline(x = 140821, linewidth = 4, color = 'r') 
sns.distplot (perm n) 

plt.title("Distribution of Gene-Depletion Intersects: Vernot and 
Akey, Science 2016", 

fontsize - 30) 

plt.xlabel("Number of Intersects Between Gene and Neanderthal 
Depleted Regions", 

fontsize - 30) 

plt.ylabel("Frequency", fontsize - 30) 
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Distribution of Gene-Depletion Intersects: Vernot and Akey, Science 2016 


# intersects 
Neanderthal 
introgression 
with genes 


Frequency 


Number of Intersects Between Gene and Neanderthal Depleted Regions 


يمكننا أن نرى أن عدد التقاطعات بين الجينات ومقاطع تقديم الإنسان البدائي Neanderthal‏ 
pl (140821 introgression segments‏ بكثير من عدد التقاطعات بين الجينات ومناطق 
النياندرتال المستنفدة Neanderthal depleted regions‏ .ي الواقع»› لم يكن أي من ال 17 منطقة 
المرسومة Gil eie‏ لاستنفاد إنسان نياندرتال بها عدد من التداخلات مع الجينات أقل من 140821 أو 
يساوي 140821( لذلك يمكننا حساب القيمة p‏ كقيمة 17 / 1> م. ما نراه هو أن الإنسان البدائي تقع 
المناطق المُدخلةني الغالب خارج الجينات» مما يعني أن التطور لم يعطي الأولوية لسلالة الإنسان البدائي 
وحاول إبعاده عن العناصر الأكثر وظيفيةفي جينومناء وهي الجينات المشفرة للبروتين. لذلك. ولأسباب 
viaa‏ فاق الجن مع aon]‏ قادال لم ينين dloca LAC UU‏ ارو حم MS.‏ 
يتحدثون IAS‏ الصحف والمجلات عن حقيقة رائعة جدا تتعلق بالتزاوج بين البشر المعاصرين 
والنياندرتال» لكنهم لم يذكروا بدا أن هذا لم يكن مفيدًا للإنسان الحديث. أليس كذلك؟ 


Breeding with Neanderthals was not beneficial for modern humans 
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الاستنتاج 

في هذا المنشور. تعلمنا عن الإمكانات الهائلة للتعلم الآلي / العميق ومعالجة اللغة الطبيعية (NLP)‏ 
لبيولوجيا التطور ومجالات أبحاث الحمض النووي القديمةء والتي لا تزال غير مستخدمة بالكامل. توفر 
بيانات الجينوم أحد المصادر الرئيسية للمعلوماتفي علم الأحياء التطوري وتتألف من ملايين ومليارات 
من قطع الحمض النووي القصيرة التي يمكن وينبغي تحليلها باستخدام التعلم العميق. أوضحنا هنا 
كيفية إعداد بيانات الجينوم ل NLP‏ وتحليلها باستخدام حقيبة الكلمات Bag Of Words‏ وتضمين 
الكلمة Word Embedding‏ . قمنا بتدريب نموذج قادر على التنبؤ بما إذاكان التسلسل الجيني موروتًا 
من إنسان نياندرتال. باستخدام النموذج» قمنا ببناء قوائم بالجينات التي من المحتمل أن تكون موروثة 
من إنسان نياندرتال واكتشفنا عدم وجود سلالة قديمةفي جيناتنا مما يشير إلى أن التزاوج مع إنسان 
نياندرتال کان تطوريًاء ولم يكن مفيدا للإنسان الحديث. 


المصدر: 


https://towardsdatascience.com/deep -learning-on-neanderthal-genes- 
ad1478cf37e7 
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LSTM to Detect لإنسان نياندرتال‎ DNA لاكتشاف‎ LSTM (14 
Neanderthal DNA 


(الشبكات العصبية طويلة الذاكرة لعلم الجينوم القديم) 


هذا هو المنشور الثامن من عمودي التعلم العميق لعلوم الحياة حيث أوضح كيفية استخدام التعلم 
العميق للحمض النووي القديم» وبيولوجيا الخلية المفردة. وتكامل بيانات OMIC‏ والتشخيص 
السريري والتصوير المجهري. فيما بعد التعلم العميق حول جينات الإنسان البدائي Neanderthal‏ 
Genes‏ أكدت على الإمكانات الهائلة للتعلم العميق و المعالجة اللغوية الطبيعية لعلم الجينوم القديم 
وأوضحت كيفية البدء عمليّافي استخدامه لاستنتاج مناطق من إدخال الإنسان البدائيفي الجينوم البشري 
الحديث. سنقوم الآن بتطبيق القوة الكاملة للشبكات العصبية المتكررة Recurrent Neural‏ 
Networks (RNN)‏ ذات الذاكرة الطويلة من أجل تنبؤ أفضل لشرائح من أصل إنسان نياندرتالفي 
الجينوم البشري الحديث. 


HMM‏ مقابل LSTM‏ لعلم الجينوم القديم 

الحمض النووي DNA‏ عبارة عن تسلسل ذي ذاكرة طويلة تتجلى من خلال الارتباطات طويلة المدى 
على طول التسلسل الذي يسمى اختلال التوازن الارتباطي Linkage Disequilibrium‏ ومع ذلك 
يتم إجراء الكثير من التحليلاتفي علم الجينوم القديم باستخدام نموذج ماركوف الخفي Hidden‏ 
Markov Model (HMM)‏ وهو نموذج بلا ذاكرة لا يمكن أن يأخذ سوى بضع خطوات سابقةفي 
الاعتبار. لقد ثبت أن الشبكات العصبية الاصطناعية للذاكرة طويلة قصيرة المدى Long-Short‏ 
Term Memory (LSTM)‏ تتفوق على HMM‏ عدد من التطبيقات مثل التعرف على الكلام 
4J 5» speech recognition‏ النص text generation‏ وما إلى ذلك من خلال الاستفادة من 
قدرتها الفريدة على حفظ العديد من الخطوات السابقةفي تسلسل يوفر ذلك ما يكفي البيانات المتاحة. 


1.00 7 
035 - ri A cm ux 
2---X4 -S 5 
N و‎ e E ا ا‎ 

m i 2 NM HNM = = - 
M t [STM === 

0.00 T T T T T T—T—T—-—T 3 
1 2 0 8 16 3 64 


Number of training samples per dass 
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يمثل علم الجينوم Genomics‏ وعلم الجينوم القديم Ancient Genomics‏ مصدرًا حقيقيًا للبيانات 
الضخمة Big Data‏ بفضل تسلسل الجيل التالي Next Generation Sequencing (NGS)‏ 
الذي يوفر ملايين ومليارات من التسلسلات التي يمكن استخدامها كأمثلة تدريبية / ملاحظات إحصائية 
لتدريب 1.5:11/15. لذلك فإن بيانات الجينوم القديم هي هدية للتعلم العميق! 


على الرغم من ازدهار موارد التدريبفي علم الجينوم / علم الجينوم القديم. لا يزال يتم إجراء غالبية 
التحليلات على بيانات الجينوم المحاكية «simulated genomic data‏ وربما تكون نظرية الاندماج 
coalescent theory‏ هي الإطار الأكثر شيوعًا لمحاكاة الديموغرافيا والاختيارني علم الوراثة السكانية 


.Population Genetics 


LSTM‏ + تضمين الكلمة على الحمض النووي للإنسان البدائي 

سأقوم هنا بتوسيع الأفكار حول استخدام المعالجة اللغوية الطبيعية NLP‏ للجينوميات القديمة التي تم 
التعبير عنهاني رسالتي السابقة التعلم العميق على جينات الإنسان البدائي وإثبات تفوق dLSTMs‏ 
تحليل بيانات التسلسل. كما لاحظت. فإن التعلم العميق من المنشور السابق لم يكن Deep Gee"‏ " 
بشکل خاص بل "واسع Wide‏ ". بالإضافة إلى ذلك يبدو أن Random Forest‏ تظهر أداءً أفضل في 
نموذج حقيبة الكلمات e SL. .2828 of Words‏ هنا بتنفيذ نموذج LSTM‏ يصل إلى دقة تصل إلى 
9ف الكشف عن امتدادات الحمض النووي الموروثة من إنسان نياندرتال. لقد أوضحت كيفية 
استخراج تسلسلات النياندرتال المتقدمة والمستنفدةفي المنشور السابق. لذلك سأبدأ هنا بقراءة 
التسلسلات» وتقطيعها إلى 200 سلسلة فرعية طويلة من النيوكليوتيدات» كل منها يمثل جملة حتى 
نتمكن من تقسيم كل جملة إلى k-mers‏ / كلمات الجمل. 


from Bio import SeqgIO 
from Bio.Seq import Seq 


tace segs = [2 depl segs = [lz = 0 

MEE E = MONG imer CIEE ie" Cepl £ = ol cdepl elean, EE! 
FOE imatr, Cepl ia mobs 0) ك5 دم 10م‎ limte E, 2 y 
SegrO.parse(depl f, 'fasta"')): 


step = 200; jump ig m üp 19 Stepi n Jumps = © 

EOE J iM sengena Juws) ES 
s imen = ere (ashes Seg) lab]; SS cebl = srr (carl Se) Iero] 
intr seqs.append(s intr); depl seqs.append(s depl) 
a 3 f jump; b ^ a 1 step 


e = e + 1 
if e$20000 == 
print('Finished ' 1 str(e) * ' entries!) 


def getKmers (sequence, size): 
return [sequence[x:x-*size].upper() for x in range (len (sequence) 
= size r 1)] 
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kmer = 0 
Hace Certe = [[" 7 Jonn OSES SE, UOJ) EOE 1 ia tate Segs] 
Cepl tekts = [Y ODOC SE, mer) Tor i iq CEL Secs] 


ننتهي مع 737340 جملة تنتمي إلى فئتين: إنسان نياندرتال متقدم introgressed‏ ومنضب 
4ع]ع1مع1. الخطوة التالية هي ترميز الجمل مرة واحدة عن طريق تحويل k-mers‏ / الكلمات إلى 
أعداد صحيحة باستخدام کلاس .Python Tokenizer‏ لاحظ أن الحشو padding‏ ليس ضروريًا 


حقاني حالتنا OY‏ جميع الجمل لها نفس الطولء بطول 191 ألف مترء لكني أدرجها هنا للتعميم. 


import numpy as np 

from keras.preprocessing.text import Tokenizer 

from sklearn.model selection import train test split 
from keras.preprocessing.sequence import pad sequences 


a EOE OES = IMEE CECS r COOL Ee S 
l'age = list (no Gnesen (inei Texts] 
list(np.zeros(len(depl texts))) 


tokenizer = Tokenizer() 
tokenizer.fit on texts (merge texts) 

encoded docs - tokenizer.texts to sequences (merge texts) 
max length = mex (enla so ine) for s Xn merge texts]) 


X = pad sequences (encoded docs, maxlen = max length, padding = 
7 ' 
POSE) 


X EAA X ESE Ww; eremm, y Cest = EIA cest SPIE labels, 


test size-0.20,random state-42) 
VOCE aize = len (TO emire Wore nacle) w I 


كان حجم المفردات 3964114( حالتنا وهو أقل من 4 ^ 10 = 1 048 576 مما يعني أنه لا توجد 
كل المفردات العشرة الممكنة المكونة من 4 أحرف داخل التسلسلات. ez‏ نحدد نموذجًا تسلسليًا 
بدءًا من طبقة التضمين Embedding Layer‏ من Keras‏ الذي يتعلم تضمين الكلمة Word‏ 
Embeddings‏ أثناء تصنيف التسلسلات » متبوعًا ب ثنائي الاتجاه LSTM‏ وطبقات كثيفة Dense‏ 


-layers 


from keras.models import Sequential 

from keras.callbacks import ModelCheckpoint 

from keras.optimizers import SGD, Adam, Adadelta, RMSprop 

from keras.layers import Embedding, LSTM, Dense, Bidirectional 


model = Sequential )( 

model.add(Embedding(vocab size, 10)) 
model.add(Bidirectional(LSTM(10))) 

model.add(Dense(10, activation — 'relu')) 

model.add(Dense(1, activation = 'sigmoid')) 

epochs = 5 

model.compile(loss-'binary crossentropy',optimizer-'rmsprop',metric 


s-['accuracy']) 
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checkpoint-ModelCheckpoint ("LSTM.weights.best.hdf5", 
moni eer الو"‎ ece, verbose = L, 
save best only = True, mode = 'max') 


model.summary() 


Layer (type) Output Shape Param# - 
embedding 2 (Embedding) (None, None, 10) 9641140 - 
bidirectional 2 (Bidirection (None, 20)  — 1680 
dense 3 (Dense) (None, 10) 210 
dense 4 (Dense) (None, 1) 11 


Total params: 9,643,041 
Trainable params: 9,643,041 
Non-trainable params: 0 


None 


ميزة استخدام تضمين الكلمة Word Embeddings‏ الطبقة الأولى هي تقليل الأبعاد من 964114 
إلى 10 أبعاد فقط. هذا يقلل من الضبط الزائد overfitting‏ ويحسن قابلية تعميم generalizability‏ 
النموذج عن طريق إجبار كلمات مماثلة على مشاركة المعلمات / الأوزان الملائمة. الآن يمكننا البدءفي 
تدريب نموذجنا. 


import matplotlib.pyplot as plt 
ME SEO = moceli OS trein, y erain, 

OCA = epohe, verbose = l, validecon solie 
= 0.2, 

bacen Size = 32; SUE = aene 

callbacks = [checkpoint] ) 


plt.figure(figsize-(20,15)) 

joie عات لات‎ (OL SIEOSEY RSE E Losst i)z 

pilt pilor lassi vr RIS EOE val Val OSS) 

plt.title('Model Loss', fontsize - 20) 

plt.ylabel('Loss', fontsize - 20); plt.xlabel('Epoch', fontsize - 
20) 

plt.legend(['Train', 'Validation'], fontsize - 20) 


.figure(figsize-(20,15)) 

SESE (OLS ESE VY MES EOE AEC 1 8 

.plot(history.history['val acc']) 

.title('Model Accuracy', fontsize - 20) 

.ylabel('Accuracy', fontsize = 20); plt.xlabel('Epoch', fontsize 
0) 

.legend(['Train', 'Validation'], fontsize - 20) 


(pir SIE OT Ken OE Tei 


8 UT 88 e 
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Train on 471897 samples, validate on 117975 samples 
Epoch 1/5 


3035s 6ms/step - loss: 0.2911 - acc: 0.8573 -‏ - [عسسسسس سم سس سمه سمدم مدع عدددد] 471897/471897 


al acc: 0.9636 


val loss: 0.0965 - v 


Epoch 00001: val acc improved from -inf to 0.96362, saving model to weights.best.hdf5 


Epoch 2/5 
471897/471897 [=== 
val acc: 0.9716 


Epoch 00002: val acc improved from 0.96362 to 0.97165, 
Epoch 3/5 

471897/471897 [s 
al acc: 0.9888 


=======] - 3116s 


Epoch 00003: val acc improved from 0.97165 to 0.98881, 
Epoch 4/5 

471897/471897 [------—----------—---——----------] - 3172s 
al acc: 0.9915 


Epoch 00004: val acc improved from 0.98881 to 0.99149, 
Epoch 5/5 

471897/471897 [zzzazszazzessznzszzzszzznzzzzzzs] - 3160s 
al acc: 0.9941 


Epoch 00005: val acc improved from 8.99149 to 0.99411, 


saving model to weights 


7ms/step - loss: 0.0133 


saving model to weights 


7ms/step - loss: 0.0055 


saving model to weights 


7ms/step - loss: 0.0026 


saving model to weights 


] - 5225s lims/step - loss: 0.0371 - acc: 0.9869 - val loss: 0.0850 - 


.best.hdf5 


- acc: 0.9957 - val loss: 0.0394 - v 


.best.hdf5 


- acc: 0.9984 - val loss: 0.0388 - v 


.best.hdf5 


- acc: 0.9994 - val loss: 0.0393 - v 


.best.hdf5 


كان كافيًا إجراء تدريب لمدة 5 فترات epochs‏ فقط لآن النموذج سرعان ما وصل إلى 33s‏ مذهلة بلغت 
9 مجموعة بيانات التحقق من الصحة .validation data‏ 


Model Loss. 


— Train 
— Validation 


Epoch 
Model Accuracy 


| — Train 
— Validation 


Accuracy 


Epoch 
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عند تقييم أداء النموذج على مجموعة بيانات الاختبار test data‏ حصلنا مرة أخرى على 1.99 من دقة 
تصنيف تسلسل الإنسان البدائي المتقدم Neanderthal introgressed‏ مقابل تسلسل المستنفد 
depleted sequences‏ 


import itertools 
import matplotlib.pyplot as plt 
from sklearn.metrics import confusion matrix 


plt.figure(figsize > (15,10)) 


predicted labels - model.predict(X test) 

em > Contusion merrily test, IAC serexviavel (ab O) Eos sb 368 
predicted labels]) 

print('Confusion matrix: 'Mn',cm) 


cm = cm.astype('float') / cm.sum(axis = 1)[:, np.newaxis] 
plt.imshow(cm, cmap < plt.cm.Blues) 
plt.title('Normalized confusion matrix', fontsize - 20) 
للم‎ 660102522 (0) 
plt.xlabel('True label',fontsize-20); plt.ylabel('Predicted 
label',fontsize-20) 
for i, j in itertools.product (range (cm.shape[0]), 
range(cm.shape[l1])): 

oie o teney s» conne (ONE, Jil Va24 (| 


horizontalalignment = 'center', verticalalignment = 
eem y 

fontsize - 20, color whitei if cm[i, j] > 0.5 else 
Solecki 
Scores = model evaluerte test, y test, veroose = 0) 


PDE IME 2 :22ت‎ S25 o (Scores IL L100) 


Normalized confusion matrix 


Predicted label 


-0.50 025 075 


050 
True label 
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الآن لدينا نموذج LSTM‏ مدرب سنستخدمه GY‏ للتنبؤ بتسلسل الجينات الموروثة من إنسان 
نياندرتال. حان الوقت الآن لتفسير النموذج الذي يتضمن تصور المفردات والكشف عن معظم k-‏ 
5 التنبؤية التي تقود التصنيف. 

تصور تضمين الكلمة 

في الوقت الحالي» يتم تمثیل کل k-mer‏ / كلمة بمتجه 10 dimensional vector)‏ -10( أبعاد نظرًا 
UN‏ طبقنا طبقة تضمين 3Embedding Layer‏ الواجهة الأمامية للشبكة. لتصور ما تعلمته طبقة 
التضمين» نحتاج أولاً إلى حفظ أوزان الطبقة وكلمات المفردات. 


import io 


= model.layers[0] 


weights = e.get weights()[0] 
words = [i.upper() for i in list(tokenizer.index word.values())] 
out v io.open('vecs.tsv', 'w', encoding-'utf-8') 


Gwe nn = Mor OPen Mela ESM, VwV, Eneo mowicie) 
for num, word in enumerate (words): 
vec = weights[num 1 1] 4 skip O, it's padding. 
out m.write(word E "Nn") 
SEE !)فعا عن ين‎ WE" cessa (etes (ox) or x im vcl) € "Way 
051807 552 0 
out m.close() 


من أجل opal‏ يمكننا استخدام Tensorflow Embedding Projector‏ من هنا 


[http://projector.tensorflow.org‏ والتحقق من تجميع مجموعات k-mers‏ باستخدام تقنية 
UMAP‏ لتقليل الأبعاد غير الخطية. 


g 
D 
DE 


ı E 5 © © AU 


A‏ © رم ععميي صم 
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بدت العلاقات بين k-mers‏ التي تعلمتها طبقة التضمين مختلفة GLS‏ عن تضمينات Word2Vec‏ 
المقدمةفي المنشور السابق ولم تكشف عن أي تجمعات واضحة ل k-mers‏ الغنية 5 AT‏ و GC‏ 
الغنية. 


تحديد K -mers‏ التنبؤية 
تتمثل إحدى طرق بناء عناصر استيراد الميزات للشبكة العصبيةفي فرض بعض التقليب perturbation‏ 
على بيانات الإدخال ومراقبة التباينفي دقة التنبؤ عند إخراج الشبكة. هناء نود العثور على k-mers‏ 
الأكثر إفادق ومع ذلك.ني حالتناء كان لمصفوفة الإدخال X‏ أبعاد )191 ,737340): حيث يمثل البعد 
الأول عدد أمثلة التدريب للشبكة العصبيةء والبعد الثاني يتوافق مع عدد الكلماتفي كل جملة / تسلسل. 
هذا يعني أن index Gg‏ (أو موضعًا position‏ الجملة) لكل كلمة / k-mer‏ كان ميزة لمصفوفة 
الإدخال ×. لذلك إذا قمنا بتبديل كل ميزة feature‏ من 191 di‏ واحدة تلو الأخرى عبر 737340 
عينةء وتحقق من الانخفاضفي الدقة مقارنة بمصفوفة الإدخال غير المقلبة un-perturbed input‏ 
«matrix‏ يمكننا ترتيب الميزات حسب أهميتها للتنبؤ النهائي.ني حالتناء فإن ميزات الترتيب تعادل 
تحديد e^‏ مواضع الكلمات / k-mers‏ عبر جميع الجمل / التسلسلات. 

import matplotlib.pyplot as plt 


pern Scores = I] 
EOE 3t in renge (OX testo SMA E 
xX test permi itest 
X test perm[;,t]| = random.sample(Uist(X EES E TN, 
6ك لكت هنا‎ Ls testant) 
perm scores.append(abs (model.evaluate(X test perm, y test, 
verbose = O) [L71100 = 


model.evaluate(X test, y test, verbose = 
0) [1]*100)) 


plt.figure(figsize-[1606,5]) 
barlist > plt.bar(np.arange(len(perm scores)), perm scores) 
plt.xlabel('Bases'); plt.ylabel('Magnitude of saliency values') 


0014 


0012 


0010 


0.008 


0.006 


Magnitude of saliency values 
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إذا حددنا مواضع positions‏ / مؤشرات indices‏ الكلمات التي تغير الدقة فوق 0.01. فإننا نصل إلى 
الكلمات 0 و 4 و7 و18 و34 و52 و75 و81 و 104 و 130 و 146 و 182 باعتبارها الأكثر 
أهمية. ربما نلاحظ بعض الإثراء للكلمات المهمةني بداية الجمل. الآن نتحقق ببساطة من الكلمات 
الأكثر شيوعًا / k-mers‏ عبر جميع الجملفي المواضع أعلاه. 


import pandas as pd 
from collections import Counter 


SEOEES AE PA 7 6و8‎ 2 82 9206 )/) Base : 2212102 ) 1 22 )826 121017 SEOFeS)), ' 2022١ 
perm scores]) 
ine ema ive ind ee Ss — MMSE (SCOEES dE | SEOEeS QE SEO > 
0.01].index) 
reverse word map - dict (map (reversed, 
tokenizer.word index.items())) 
der Sequence EO ext (NSE OE mdi ees) 
return [reverse word map.get(letter) for letter in 
Ti SEO د‎ $ | 
my texts > list(map(sequence to text, X test[informative indices, 


ADD 


fig > plt.figure(figsize - (20, 15)) 
I = CECE (CONE EE (LES WEE YJ EOE SUL اك‎ im my CETS 

for item in sublist]).most common(20)) 
plt.bar(range(len(D)), list(D.values()), align = 'center') 
plt.title('Most Predictive K-mers', fontsize - 20) 
plt.ylabel("Counts", fontsize - 20); plt.xticks(rotation - 90) 
BE EEE BEES ARGS ES 117 list(D.keys()), fontsize = 20) 


Most Predictive K-mers 


مما يبعث على الاطمئنان. نلاحظ أن v k-mers‏ ب CAT-rich k-mers) AT‏ يميزون أكثر ما 
يميزون بين تسلسلات النياندرتال المتقدمة والمستنفدة كما تم عرضه UA‏ المنشور السابق. 


Counts 


AAATAAAAAT 
AAAAATAAAA 
AAAATAAAAA 
TTTTAAATAA 
AATAAAAATA 
ATAAAAATAA 
TAAAAATAAA. 
TTGTAGTTIT 
AAGAAAAGAT. 
AATTAATAAT. 
ATTAATAATA | 
TCCTTGTTIT 
AAATAATTAA 
AGTGAGCTGA 
GTGAGCTGAG 
ATAAAAAATA 
TAATAATAAT. 
TAGATGCTAA 
AGATGCTAAA 


AACATTTTIT 
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895 جينات النياندرتال 

الآن سننظرفي تسلسل الجينات البشرية ونموذج LSTM‏ المدرب من أجل عمل تنبؤات عن مدى 
احتمالية توريث كل جين بشري من إنسان نياندرتال.في المنشور السابق» أوضحت كيفية استخراج 
تسلسل الجيناتفي ملف فاستا fasta-file‏ منفصلء لذلك T is‏ الآن هذه التسلسلاتء ونقسمها إلى 
ck- mers‏ ونحول k-mers‏ إلى أعداد صحيحة باستخدام Tokenizer‏ ونتوقع أصل إنسان نياندرتال 
باستخدام نموذج LSTM‏ المدرب. 


import pandas as pd 

from Bio import Segle 

from keras.preprocessing.text import Tokenizer 

from keras.preprocessing.sequence import pad sequences 


= 0; gere ssss — ||; gere see = [I] 
EOE Gene 3us Selo pearse l RGS gere EC lean Ea, EASE) 
cutoff - 200 
if len (str (gene.seq)) > cutoff: 
continue 
Sene HOS ADSENSE (Cene id)? s Gene = Er (Gene senate ed] 
gene seqs.append(s gene) 
e = e + 1 
if e$10000 == 
print('Finished ' -* str(e) T ' genes") 


def getKmers (sequence, size): 


return [sequence[x:x-*size].upper() for x in range (len (sequence) 

= lze r d] 

kmer = 10 

Gene tekts = [V ' |3212 (Getters (i mer) Tor i in Gene Secs] 
tokendvzebr — Tokenvzert(); tokenuwszer.titconvtexts(gene texts) 

encoded docs - tokenizer.texts to sequences(gene texts) 
max length - max([len(s.split()) for s in gene texts]) 

X gene - pad sequences (encoded docs, maxlen - max length, padding - 
Lu Lu 

OSE) 


gene predictions - model.predict Classes (X gene) 
gene predictions prob - model.predict proba(X gene) 


gene pred df = pd.DataFrame(('Gene': gene ids, Cene Symbol': 
gene symbol, 

i "825016  : 
list(gene predictions.flatten()), 

i ع"‎ V e 

list(gene predictions prob.flatten())]) 
gene predl lt = gene prec OF sort valves (C [E EEO ll, exstexeimelibarej = 
False) 
Sene precil حك‎ (gene pored dE  Precicet"] == JD) > (Gene Prec chr EEO IN 


= 10519) ] 
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Gene Gene Symbol Predict Prob 
7360  chr12:120884241-120901556 GATC 1 1.000000 


23845 Chr6:73844526-73853237 KCNOQS-AS1 1 1.000000 
20238 chr4:40194587-40246384 RHOH 1 1.000000 
2022  chr1:174769035-174964445 RABGAP1L 1 1.000000 
2024  chr1:174904084-174923398 LOC101928696 1 1.000000 
8518 chr14:75230069.75304013 YLPM1 1 1.000000 
2068  chr1:180199433-180244188 LHX4 1 1.000000 
8408 chr14:61176256-61190852 SIX4 1 1.000000 
2107  chr1:186369704-186370587 OCLM 1 1.000000 
2114  chr1:187412760-187446354 LINCO1037 1 1.000000 
$219 Chr14:24641234-24649463 RECS 1 1.000000 
8198 €hr14:24422944.24438488. DHRS4 1 1.000000 
8109 chr14:20779527-20801471 CCNB1IP1 1 1.000000 
2204 chr1:202955580.202976393 LOC100506747 1 1.000000 
8033  chr13:111766159-111768025  ARHGEF7-AS2 1 1.000000 
7926 chr13:85937738-86118797 LINCO0351 1 1.000000 
26185 chr7:33019086-33046543 FKBP9 1 1.000000 
7701 chr13:39106137-39260812 LINCO00437 1 1.000000 
2418 — chr1:226335704-226342678 ACBD3-AS1 1 1.000000 
7465  chr12:125396191-125399587 UBC 1 1.000000 
29638 chrUn gi000211:48503-93165 FLJ43315 1 1.000000 
18818 chr3:99979661-100044096 TBC1D23 1 1.000000 
17116 Chr20:45947246-45949498 LOC 100131496 1 1.000000 
8943 €hr15:45406523-45410301 DUOXA2 1 1.000000 
8994 €hr15:55647421-55700708 CCPGI 1 1.000000 
31193  chrX:154718673-154842622 TMLHE 1 1.000000 


عند التحقق من عدد الجينات المتوقع أن تكون موروثة من إنسان نياندرتال» نؤكد النتيجة من المنشور 
السابق أن الغالبية العظمى من الجينات» أي 22000 من أصل 31000 جينة بشرية تم تحليلهاء خالية 
من أصل إنسان نياندرتال. لذا توصلنا مرة أخرى إلى استنتاج مفاده أن التطور لسبب ما دفع بأصول 
إنسان نياندرتال بعيدا عن الجينات التي تعد معظم العناصر الوظيفية للجينوم البشري. بإلقاء نظرة 
فاحصة على قائمة جينات النياندرتال "الناجية survived‏ " ومقارنتها مع تنبؤات Random Forest‏ 
ضمن نموذج Bag of Words‏ من المنشور JI‏ نلاحظ عددًا من الجينات التي لها ارتباطات مع 
سمات وأمراض بشرية مختلفة. على سبيل QUA‏ تم التنبؤ بجين ANK3‏ باحتمال> 799 من قبل 
كل من Random Forest; LSTM‏ ليكون من أصل إنسان نياندرتال. من المعروف أن هذا الجين 
مرتبط بالاضطراب ثنائي القطب Bipolar Disorder‏ ويتم التعبير عنهني الغالبفي دماغ الإنسان. 
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Abstract 

To identify susceptibility loci for bipolar disorder, we tested 1,8 million 
variants in 4,387 cases and 6,209 controls and identified à reglon of 
strong association (rs10994236, P = 9.1 x 1077) in ANK3 (ankyrin G). We 


also found further support for the previousty reported CACNAIC (alpha. 


1C subunit of the L-type voltage-gated calcium channel; combined P = r —AMG 

N 9256 ot m ممم‎ e. * 

7.0 x 10, 751006727). Our results suggest that lon channelopathies may T——À— vm 

bc involved in the pathogencsis of bipolar disorder, $145 614 61 65 01 616 617 6175 618 
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يرتبط جين ANK3‏ المتوقع أن يكون من أصل إنسان نياندرتال بالاضطراب ثنائي القطب 


Gene expression tor ANK3 (ENSG00000151150,21) 
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بالإضافة إلى ذلك اقترحت بعض الدراسات أن أجزاء من أدمغة الإنسان المتورطةني الاضطرابات 
النفسية قد تتشكل من خلال الوراثة الجينية من إنسان نياندرتال. 


يؤوي الدماغ البشري "الصدى المتبقي residual echo‏ " لجينات النياندرتال 


هذا هو المكان الذي يمكن لعلم التطور أن يطلع فيه الطب الحيوي Biomedicine‏ على التطور 
التاريخى وأصل السمات التى أدت إلى أمراض الإنسان الحديثة. 
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الاستنتاج 

في هذا المنشور. تعلمنا أنه قد يكون من المفيد تطبيق نماذج الذاكرة الطويلة مثل LSTM‏ على بيانات 
تسلسل الحمض النووي DNA‏ المعروف بامتلاكها لارتباطات طويلة المدى على طول التسلسلات. 
لقد أظهرنا أن LSTM‏ حقق دقة مذهلة وتفوقفي الأداء على جميع النماذج الأخرى التي تكشف عن 
مناطق تقدم الإنسان البدائيفي الجينوم البشري الحديث. كشف تفسير النموذج أن k-mers‏ الغني ب 
AT‏ هو الفرق الرئيسي بين الإنسان البدائي وزخارف الحمض النووي البشري الحديث. لقد توقعنا أن 
كر غاي condi‏ البقرية حالية مى أصل aba]‏ تادر ان سما يعن فما لخا C os‏ خلال 
التطور ضد أصل إنسان نياندرتال. يرتبط عدد من الجينات التي يتوقع أن تكون موروثة من إنسان 
نياندرتال بسمات بشرية مثيرة للاهتمام مثل الاضطراب ثنائي القطب. 


المصدر: 


https://towardsdatascience.com/lstm-to-detect-neanderthal-dna- 


843df7e85743 
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5 التعلم العميق على الميكروبيوم Deep Learning on gil‏ 
Human Microbiome‏ 
(استنتاج التركيب الميكروبي لعينة من تسلسل الحمض النووي) 

إنه المنشور التاسعفي عمودي "التعلم العميق لعلوم الحياة "Deep Learning for Life Sciences‏ 
حيث أحاول عرض أمثلة ملموسة لتطبيق الشبكات العصبية الاصطناعية artificial neural‏ 
networks‏ على مشاريع العالم الحقيقي من البيولوجيا الحاسوبية Computational Biology‏ 
وعلوم الحياة Life Sciences‏ .3( السابق» قمنا بتغطية بعض تطبيقات التعلم العميق للحمض النووي 
القديم Ancient DNA‏ وبيولوجيا الخلية المفردة «Single Cell Biology‏ وتكامل البيانات 
Data Integration‏ والتشخيص السريري (Microscopy Imaging‏ والتصوير المجهري 
Microscopy Imaging‏ بالإضافة إلى بعض التقنيات من معالجة اللغة الطبيعية CERAM (NLP)‏ 
مناطق إدخال الإنسان البدائيني الجينوم البشري الحديث.في هذه المقالة سوف نتعلم BUJ‏ يمثل 
الميكروبيوم البشري Human Microbiome‏ البيانات الضخمةفي علم الأحياء Biology‏ وكيفية 
تدريب مصنف الشبكة العصبية التلافيفية Convolutional Neural Network (CNN)‏ للتنيق 
بالتركيب الميكروبي لعينة الميتاجينوميات metagenomics sample‏ بدءًا من التسلسلات الأوليةفي 
ملف .fastq‏ 


الميتاجينوميات كبيانات كبيرة 

لسوء الحظء ليس من السهل البدءفي تطوير نماذج التعلم الآلي للتطبيقات البيولوجية والطبية الحيويةء 
في رأيي» بسبب نقص البيانات. ناقشت بعض التحدياتفي رسالتى السابقة هل لدينا بيانات كبيرةفي 
علو الحياة؟ لقد ذكرت هناك ثلاث اتجاهاتفي علوم الحياة تبدو واعدة للذكاء الاصطناعي والتعلم 
الآلي لأنه يبدو أن لديهم كميات كافية من البيانات» وهي: 


أوميكس خلية مفردة Single Cell Omics‏ 
التصوير المجهري Microscopy imaging‏ . 
بيانات الجينوميات Genomics data‏ تعتبر التسلسل ملاحظات إحصائية. 


d‏ التعليقات اقترح Mikael Huss‏ بيانات الميتاجينوميات Metagenomics‏ والميكروبيوم 
Microbiome‏ باعتبارها المصدر الرابع للبيانات الكبيرة.في الواقع» يمكن للمرء أن يجد الكثير من 
بيانات الميتاجينوميات المتاحة للجمهور» على سبيل المثال» باستخدام مورد EMBL-EBI‏ الرائع 
.MGnify‏ 
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MGÓnify 


Submit, analyse, discover and compare microbiome data 


tdata | Texisearch | Sequenceseart | Brows 


Getting started 
Search by Request analysis of 


Nama, biona, or kaywerd Sequence similarity Your data A pullis datasat 


Or by data type 


yp 28465 arnplicon do m Latest studies 
24782 assemblies 325323 samples 
2050  metabarcoding 430538 ansiysos EMG producod TPA metagoscmics assombly cf PRJEB34634 data so! | 


(Detailed study at the genetic level at bacteria in farm animals, hurran/animal 


33946  metagenemes 
sewage, sewage Ireatrsen! works anc rivers, ها‎ work out Ure compie network of 


2217 metatanscriptorses 
tranerrissine of importan! anlibictic-rosictart bacloria and antibiolic resstanco. 


Or by selected biomes genes 
8 چ‎ Tha Third Party Ansclatiarn (TPA) assambly was doriead fom the primary whole 
A 8 E genome shotgun (WGS) data set PRJES34634, and was assembled with 
98 metaSPAces v3.14. 1. This project includes samples from the following biomes: 
Huan Digestivo — Aqwaüc — Manne Desire foL Mixed. 
(141600) — systom (45027) (33390) systom Mew mere - 1 samples 
(91216) 32422 
EMG produced TPA metagesomics assembly cf PRINAS85854 data sat 
e È (Marine metagenomes from tha bioGEOTRACES project). 
praris Sol ahn Wien Fact The Third Party Anactation (TPA) assembly was derived bon the primary whole 
DESA PREN mom (asm 1 MURIS genome shotgun (WGS) data set PRINA3E5354, and was ssseniied with unknown 


السبب وراء تسمية Metegenomics‏ ببيانات كبيرة Big Data‏ هو تسلسل البندقية shotgun‏ 
sequencing‏ الرخيص نسبيًاء وبالتالي يتم ترتيب آلاف العينات» والطبيعة المنخفضة الأبعاد نسبيًا 
لبيانات الميتاجينوميات.في الواقع» يؤدي رسم خرائط لشظايا الحمض النووي DNA fragments‏ 
المتسلسلة للكائنات الميكروبية microbial organisms‏ المعروفة عادة إلى اكتشاف 1000-500 
ميكروب موثوق به» وهي ليستفي الحقيقة بيانات عالية الأبعاد مقارنةء على سبيل المثال» بالتنوع 
الجيني genetic variation‏ أو بيانات المثيلة methylation‏ التي تحتوي على ملايين من الأبعاد. 


التركيب الميكروبي مع SourceTracker‏ 

مع d‏ الاعتبار أن Metagenomics‏ توفر الكثير من البيانات لتطوير خوارزميات الآلة والتعلم 
العميق. سأحاولفي هذه المقالة تدريب شبكة عصبية تلافيفية (CNN)‏ يمكنها تقدير مصادر 
المجتمعات الميكروبية لعينة معينة. على سبيل (JUI‏ أخذ عينة مسحة swab‏ من سطح المكتبفي 
مكتبي» ما نوع الميكروبات التي أتوقع أن أجدها هناك؟ هل تشبه جراثيم بشرتي» أو ربما ميكروبات 
فموية من فمي؟ يمكن تقدير ذلك باستخدام برنامج رائع يسمى Source Tracker‏ 
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5 Processes 
a 77 
Sources": detected by 
S Track 
" , ource I racker "Sinks": 
u 2 
Migration Lab, Office, NICU 


Environmental 
Sampling 
Sample 
processing 


Observed 


Contamination 
during sampling 


Contamination 
Reagents during processing 


Sequences 


SourceTracker Lash‏ هي نسخة بايزية Bayesian version‏ من خوار زمية تجميع 
clustering algorithm‏ نمو a‏ خليط غاو سي Gaussian Mixture Model (GMM)‏ )343 
مشابهة لخليط ديريكليت متعدد الحدود (Direchlet Multinomial Mixtures‏ التي يتم تدريبها 
على مجموعة بيانات مرجعية تسمى المصادر (Sources‏ أي فئات مختلفة مثل التربة أو جرثومة الفم 
البشري أو الأمعاء البشرية المجسيغات وما إلى US‏ ويمكن تقدير A‏ [مساهمة كل مصدرق cose‏ 
اختبار تسمى الأحواض Sinks‏ 50.9« تقوم خوارزمية SourceTracker‏ بشكل صريح بنمذجة عينة 
حوض Sink sample‏ كمزيج من المصادر. P‏ نكهة Bayesian‏ للخوارزمية من استخدام 
Direchlet priors‏ عند ملاءمة fitting‏ النموذج. 


في الأصلء تم تطوير SourceTracker‏ لبيانات (16S‏ أي باستخدام جينات RNA‏ الريبوسوم 165 
فقط.في المقابل» سنحاول هنا تدريب المصنف باستخدام بيانات ميتاجينوميات البندقية shotgun‏ 
65 بالإضافة إلى ذلك لم يتم تصميم SourceTracker‏ لاستخدامهفي تسلسل 
الميتاجينوميات الخام» ولكنه يحتاج بدلاً من ذلك إلى وفرة ميكروبية microbial abundances‏ 
(وفرة (OTU‏ محددة بطريقة ماء على سبيل المثال من خلال خط أنابيب QIME‏ أو 
MetaPhlan2‏ أو .Kraken2‏ المقابلء فإن الهدف من مصنف CNN‏ الذي سنقوم بتدريبه هنا هو 
الانتقال من ملف fastq‏ إلى التنبؤ بالتركيب الميكروبي لعينة metagenomic‏ دون تحديد الكميات 
الوفرة الميكروبية. 
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بيانات مشروع الميكروبيوم البشري (HMP)‏ 

لتدريب مصنف CNN‏ سنستخدم مورد بيانات مشروع الميكروبيوم البشري العظيم Human‏ 
.Microbiome Project (HMP)‏ يوفر HMP‏ وفرة من الأصناف الميتاجينومية المحددة كمياً 
باستخدام MetaPhlan2‏ والتي يمكن تنزيلها من هنا. 


NIH Human Microbiome Project 


Characterization of the Characterization of microbiome 
microbiomes of healthy human and human host from three 
subjects at five major body sites, cohorts cf microbiome-associated 
using 16S and metagencmic conditions. using multiple 'omics 
shotgun sequencing technologies 


Enter iHMP- 


تم حساب ملامح الميتاجينوميات لأربعة أنسجة بشرية (مجتمعات ميكروبية microbial‏ 
:(communities‏ الفم Oral‏ الأمعاء Gut‏ الجلد Skin‏ المهبل coUsl Vagina‏ سنستخدم 
مصفوفة JI‏ 3 3 الميكروبية microbial abundance matrix‏ لاختيار الأجناس البكتيرية الخاصة 
بالأنسجة «tissue-specific bacterial genera‏ أي مجموعات البكتيريا التي تتوفر بكثرةفي واحد 
فقط من الأنسجة الأربعة» وبالتالي يمكن أن تكون بمثابة صانعي الميكروبات للأنسجة البشرية. لاحقاء 
سوف نستخدم الجينومات المرجعية للأجناس البكتيرية الخاصة بالأنسجة لتدريب مصنف CNN‏ 
على التعرف على المجتمعات الميكروبية cT)‏ والأمعاء والجلد. والمهبل) من التسلسلات الأوليةفي 
ملف 42560. سنيدأ بقراءة مصفوفة الوفرة الميكروبية وتصور العينات من الأنسجة البشرية الأربعة عبر 
مخططات تقليل الأبعاد PCA)‏ و .(tSNE‏ 


import pandas as pd 

import seaborn as sns 

from umap.umap import UMAP 

import matplotlib.pyplot as plt 

from sklearn.manifold import TSNE 
from sklearn.decomposition import PCA 


SaS- SEE E ORE scar ma 1.5) 
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microb - pd.read csv('microb.txt', sep — 'Nt') 

phen = pd.read csv('phen.txt', sep = 'Nt') 
phen['Color'] 'blue' 

phen['Color'][phen['STArea'] == 'Oral'] = 'red' 
phen['Color'][phen['STArea'] == 'Skin'] = 'green' 
phen['Color'][phen['STArea'] == 'Vaginal'] = 'orange' 


X = microb.values 
X = np.logl10(X -* 1) 


Pihke sarewu Groaza = (20, S 

X reduced = PCA(n components = 2).fit transform(X) 

pilt 2م55 همه‎ (D FECES, Ol; »€ seehweeellso X). 3 = S. @ = 
phen['Color!']) 

plt.title('Principal Component Analysis (PCA): Human Microbiome 
Project (HMP)', 

fontsize - 25) 

plt.xlabel("PCA1", fontsize - 22); plt.ylabel("PCA2", fontsize - 
22) 


from matplotlib import cm 
import matplotlib.patches as mpatches 


my legende = MICE. Peren (color = Wolwe“, lee = EE, 
mpatches.Patch(color -» 'red', label - 'Oral'), 
mpatches.Patch(color = 'green', label = 'Skin'), 
mpatches.Patch(color = 'orange', label = 'Vagina')] 


plt.legend(handles - my legends, fontsize - 20) 


Oihe ناودع‎ (E GSI Ze — (20, 5)) 
model - TSNE(learning rate - 200, n components - 2, random state 
129). 

SU, inig = X seexehwerselo a irer = Jii.‏ = تاشت لمهم 
verbose = 2)‏ 
Eene = model EiT 22325 OEM)‏ 
plt.scatter(tsne[:, 0], tsne[:, 1], s > 50, c = phen['Color'])‏ 
plt.title('tSNE: Human Microbiome Project (HMP)', fontsize - 25)‏ 
e et SNEZ T Onesie‏ 22ل عاللم 2 729 ex S NEIN Et nissim‏ هت للد الام 
)22 
pilt legere (handlesc-omyclegendsp» EO SIZE = 20)‏ 


Principal Component Analysis (PCAy Human Microbiome Project (HMP) 
mm at 
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15NE: Human Microbioma Project (HMI) 
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في كل من مخططات PCA‏ و SINE‏ يمكننا أن نرى أن العينات يمكن فصلها بوضوح بواسطة 
الأنسجة الأصلية من حيث الوفرة الميكروبية. هذا يعني أنه يجب أن يكون من السهل جد تدريب 
م «Sa? GNN‏ الف بسي الغا Rune Rad‏ عن طريق قعص يليل انض الووي 
الميكروبي 3microbial DNA sequences‏ العينة. ومع «XS‏ من أجل صنع مخططات PCA‏ 
CNE‏ « استخدمنا الوفرة الميكروبية microbial abundances‏ وليس البيانات المتسلسلة نفسهاء 
لذلك سيتعين علينا أولاً استخراج الكائنات الميكروبية التي تفصل أفضل عينات الأمعاء والفم والجلد 
والمهبل. سيتم استخدام الجينومات المرجعية Reference genomes‏ من الكائنات الميكروبية 
الكثر Sus‏ وقت لاحق لإنشاء مجموعة بيانات التدريب train data set‏ من التسلسلات لمصنف 
.CNN‏ 


اختيار الميكروبات الخاصة بالأنسجة 

لاختيار الكائنات الميكروبية التي تفصل بشكل أفضل بين عينات الأمعاءء والفم. والجلدء والمهبلء 
یمکننا على سبيل المثال تدريب مُصنف Random Forest‏ وإلقاء نظرة على أهمية الميزات 
واتجاهات تأثيرها. ومع ذلك يبدو أن هناك الكثير من الميكروبات الخاصة بالأنسجة. أي الميكروبات 
التي لها وفرة عاليةفي نسيج واحد ولكنها تكاد تكون معدومةفي جميع الأنسجة الأخرى. على سبيل 
JEI‏ إذا نظرنا إلى Haemophilus parahaemolyticus‏ الذي يحتوي على مؤشر 1950 إطار 
بيانات الوفرة الميكروبية» فإنه يبدو خاص بالفم :very Oral-specific‏ 


Cire =‏ 505250 ده MSO,‏ = لكك 
pd.DataFrame(('Tissue':‏ 

Tise CL P xeu v j phen "مع مخض‎ | value CONES |] "62207 se 

Meicia eRe] Surat V] value COUN SKI exit | < 


['Vaginal']*phen['STArea'].value counts()['Vaginal'] = 
EE ll Re etara | avedre ounmtsse T euei) y 
'Abundance': 
list(microb.loc[phen['ID'][phen['STArea'] -- 
Horzel Ul] ]لد‎ gr eol) sr 
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list (microb.loc[phen['ID'][phen['STArea'] == 
JS aV T. sadeel s sel) a 
list (microb.loc[phen['ID'][phen['STArea'] == 
Vag a |] [| الك هلله‎ piach] 3» 
list (microb.loc[phen['ID'][phen['STArea'] == 
"(eme ||, | oO lS, seal) Y) 
PEE 2240126 ) 620521224 = (20, IS 
sas barolar = SSE, y = 2907ل‎ cate = تنا ده‎ 254 ceta) 
plt.title('Haemophilus parahaemolyticus!) 


Haemophius parahaemolyticus 


00010 


son vaginal Gut 


أدناه. من أجل التبسيط. سنركز على الميكروبات البكتيرية فقط أي سيتم تجاهل العتائق archaea‏ 
والفيروسات «Viruses‏ وسيتم الاحتفاظ بالكائنات البكتيرية المصنفة على مستوى الجن س في مجموعة 
بيانات HMP‏ لمزيد من التحليل. سنقوم ببناء قوائم بالأجناس البكتيرية الخاصة بالأنسجة tissue-‏ 
«specific bacterial genera‏ ونستخدم أسمائها "لالتقاط "erepping‏ الجينومات المرجعية 
البكتيرية من قاعدة بيانات RefSeq NCBI‏ . لذلك. قمنا هنا بتقسيم المصفوفة الإجمالية للوفرة 
الميكروبية microbial abundances‏ إلى وفرة الأجناس البكتيرية bacterial genera‏ 
abundances‏ فقطء يمكننا أن نرى أن هناك 227 جنسا بكتيريًا MIS sa p‏ مشروع .HMP‏ بعد ذلك 
سنستعرض جميع الأجناس البكتيرية HMP‏ ونبني قوائم بالأجناس الخاصة بالفم والجلد والمهبل 
والأمعاء Giy‏ لمعيار بسيط: إذاكان الجنس البكتيري أكثر وفرة 10 مرا تفي نسيج واحد مقارنة بالجميع 

„tissue-specific الأنسجة الأخرىء» يعتبر الجنس خاصًا بالأنسجة‎ 
microb - microb[[i for i in list(microb.columns) if not 's ' in i 
and 'g ^" in i 


and 'k Bacteria' in i and not 'noname' in i 
and not 'unclassified' in i]] 


oral specific list 
Skinispec E SE 


list) gur specirie liste = LISE U7 
list (D) 2 vagina Spec 1C list = list) 


for ind in range (len (microb.columns)): 
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my data = pd.DataFrame(('Tissue': 
diste. ) Oral" | preni SrArea" | value counts (O || "sse" || «x 
ekimi onen emare] velve COUMES (V SR] E 
['Vaginal']*phen['STArea'].value counts()['Vaginal'] -* 
[ene [| pasal Sabe " ]] هن لمم‎ COURES O ff ewt" 1) 7 


'Abundance':list (microb.loc[phen['ID'][phen['STArea']--'Oral'],].il 
toxe: Sp abiovel]| E 
list (microb.loc[phen['ID'][phen['STArea'] == 
Jena I.T] .adee| s. sel) aF 
list(microb.loc[phen['ID'][phen['STArea'] == 
TWEEN lg اك فلل‎ s, Aae) a 
list (microb.loc[phen['ID'][phen['STArea'] -- 'Gut'],].iloc[:, 
ind])]) 


ratio = float(my data.groupby('Tissue', 
sort-False).mean().sort values( 
'Abundance', ascending = True).iloc[3, :] / 
my data.groupby('Tissue', 
sort = False).mean().sort values('Abundance', ascending = 
EUS) . 21627 81) 


if(ratio > 10 and 'k Bacteria' in microb.columns[ind] 
emel Veg Y ain MEE. columnas [5l] ) 8 


abe (iub Care gr owgoy O Missus, SOLE = 
False).mean().sort values( 
'Abundance', ascending = True).index[3] == 'Oral'): 
oral specific list.append (microb.columns[ind]) 


Lety Carte SEO O Missus, SOE = 
False).mean().sort values( 
'Abundance', ascending = True).index[3] == 'Skin'): 
skin specific list.append (microb.columns[ind]) 


abit (Gub CECE. GEO (C Missus”, SOE = 
False).mean().sort values( 
'Abundance', ascending = True).index[3] == 'Vaginal'): 

vagina specific list.append(microb.columns[ind]) 


if(my data.groupby('Tissue', sort - 
False).mean().sort values( 
'Abundance', ascending = True).index[3] == 'Gut'): 
gut specific list.append (microb.columns[ind]) 


tissue Syene: lise = [f 
Tor tissus im [oral مدع قمع هه‎ list, GUte SPee list, 
Skin علط عنم‎ Ligt, 

veine Specii SENE 


parsec Gents bacteria = lise (seti -soliet | 93) Sl Sor 3b 3s 
tissue])) 

parses genue bacteria = [1 replace" "e “Yu form st im 
parsed genus bacteria] 

tissue specific genera - list(set(parsed genus bacteria)) 


tissue specific list.append(tissue specific genera) 
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for index, tissue in enumerate(['oral','gut','skin','vagina']): 
with open('tissue specific genera names ' -* tissue Û 
Jy TUN Liest. tsen "WI as T3 
ror iten im ESSE SPECIE Ee liseli nee] s 


9 


f.write("$sWNn" 5 item) 


يمنحنا هذا المعيار البسيط لخصوصية الأنسجة Cz 61 tissue-specificity‏ خاصًا بالفم» 535 
C‏ بالأمعاى و49 غاا بالجلد» و16 جنا بكترا خاضًا بالمهيل . ذعونا تخار apa‏ وفرة من 
بعض الأجناس الخاصة بالأنسجة من كل من الأنسجة الأربعة: 


sample microb names = ['Neisseria', 'Actinomyces', 'Haemophilus', 

'Bacteroides', 'Akkermansia', 
'Faecalibacterium', 

'Staphylococcus', 'Propionibacterium', 
'Peptoniphilus', 

'Lactobacillus', 'Gardnerellea', 
'Ureaplasma'] 
GENUS index MEO. Columns. Ge oe (nme sore مه‎ OOE OS 
("gy Vang 2 i TON) 

for j in sample microb names] 
for i, ind in enumerate(genus index): 
EE 2 SOOO (A, 39. 3L 4r L) 
groupped data - pd.DataFrame(('Tissue': 

lise (I Orei N Chen V Sataverexen " T] دس‎ vexexoaane st (O [E لدعت‎ | we 
"Skin']*phen['STArea'].value counts()['Skin'] a 
Vaginal) Chen) s SEAneaswvalueecountsi) s دض يت‎ | < 
CUE | onen oae يك‎ ll : فعس نمع 12 للدي‎ )( [E GUE 13) 7 
'Abundance': list(microb.loc[phen['ID'][phen['STArea'] -- 
OEM Il, qos scibexe: |] 5 امسن‎ [| Jis 
list (microb.loc[phen['ID'][phen['STArea'] == 
ETO | م‎ [| LOCI ael) a 
list (microb.loc[phen['ID'][phen['STArea'] == 
VEER lg los LOC, ame) a 


(microb.loc[phen['ID'][phen['STArea'] -- 'Gut'],].iloc[:,‏ عاك ذلا 
ind])])‏ 
sns.barplot(x - "Tissue", y - "Abundance", data -‏ 
groupped data)‏ 
joi seige (4) BLE sdl eios (045r p‏ 


plt.title(sample microb names[i]) 
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Neisseria Actinomyces Haemophilus 
0.150 
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05 0020 
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0.2 0003 
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01 
002 0.001 
0.00 : 3 00 E ge 0.000 m- š 
Oral Sn Vaginal Gut Oral Skin Vaginal Gut Oral Skin Vaginal Gut 
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086 0003 
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06 
0.06 0.002 
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0.04 
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D2 002 
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أعلاه» يمكننا أن نرى بوضوح أننا تمكنا من اختيار علامات أجناس بكتيرية قوية Lam‏ خاصة بالأنسجة. 
المهبل كان الأقلء أي 16 Cs‏ خاصا بالأنسجة. ومع ذلك. عند إلقاء نظرة فاحصةء يمكن للمرء أن 
يرى أنه اشتمل على أجناس Burkholderia Jia‏ و Ralstonia‏ و Bordetella‏ المشبوهة ومن 
المحتمل جد أن تكون ملوثات كاشف PCR reagent contaminants) PCR.‏ ). لذلك قمنا 
بفحص قائمة الأجناس البكتيرية ال 16 الخاصة بالمهبل بعناية ويمكننا أن نستنتج بثقة خصوصية 
المهبل vaginal specificity‏ ل 12 منهم فقط لأسباب مختلفة. لذلك. من أجل الحفاظ على التوازن 
بين الأنسجة لتحليل التصنيف. سنختار أكثر 12 علامة خاصة بالأنسجة لكل من الأنسجة الأربعة. وهنا 
تأتي الأجناس البكتيرية التي اخترناها: 
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Oral Gut Skin Vagina 

0 Neisseria Blautia Staphylococcus Mobiluncus 
1 Veillonella Faecalibacterium Peptoniphilus Sphingopyxis 
2 Actinomyces Bacteroides Citrobacter Ureaplasma 
3 Haemophilus Dorea Enhydrobacter Caulobacter 
4 Rothia Akkermansia Finegoldia Gardnerella 
5 Leptotrichia Clostridium . Propionibacterium Chlamydia 
6 Cardiobacterium Ruminococcus Acinetobacter Asticcacaulis 
7T Capnocytophaga  Subdoligranulum Massilia Mycobacterium 
8 Oribacterium Oxalobacter Hymenobacter X Herbaspirillum 
9 Alloprevotella Oscilliibacter Corynebacterium Lactobacillus 
10 Gemella Eubacterium Bacillus Achromobacter 
11 Fusobacterium Bilophila Micrococcus Atopobium 


بعد الكثير من التفكير» قررت استبعاد Streptococcus‏ من قائمة الأجناس الخاصة بالفم. على الرغم 
من أن جنس Streptococcus‏ يبدو أنه خاص ie‏ إلا أنه يشمل الأنواع التي يمكن أن تكون وفيرةفي 
الأنسجة الأخرى مثل الأمعاء أيضًا. هذا يمكن أن يخلط بين مصنف CNN‏ لأننا إذا قمنا بالإشارة إلى 
الجينومات الخاصة بالعقدية Streptococcus‏ فسننتهي بالعديد من التسلسلات "الملوثة 
"contaminating‏ التي تنشأ من أنواع العقدية الخاصة cela YL‏ ومع ذلك نحصل على تسميات فموية 
Oral labels‏ خاطتة إذا افترضنا أن العقدية هي نوع فموي محدد -oral-specific genus‏ 


يمكننا التحقق من أن الأجناس الميكروبية المختارة يمكنها فصل عينات الفم» الأمعاء الجلد. المهبل 
بشكل جيد. لهذا الغرض, دعونا نجري تجميعًا سريعًا استنادًا إلى مسافة ارتباط سبيرمان Spearman‏ 
correlation distance‏ بين العينات واستخدام 8 جنسًا ميكروييًا محددًا (12 لكل من الأنسجة 
الأربعة). 


import scipy as sp 
import seaborn as sns 


She Ser (rone Seale = 1) 


microb.columns 
microb.columns 


lic SONE [93 J| EOE at aum MAE SO. codon 
[to replace ep “pri oue aL wa ل كن لمت ومس ا‎ 
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gen List = [|'Netrsserra", 1ع‎ "Actuinomyces", 
'Haemophilus', 'Rothia', 

'Leptotrichia', 'Cardiobacterium', 
'Capnocytophaga','Oribacterium','Alloprevotella', 
'Fusobacterium', 'Blautia', 'Faecalibacterium', 
'Bacteroides','Dorea','Akkermansia', 

y; "VSyerlolLieussumwbwun", "V(Orxebelocuetes y;‏ فرعم مهمه HUM, RUW‏ نمدم ورت دما 
e V n‏ ل OSE‏ 

'Eubacterium', 'Bilophila', 'Staphylococcus', 'Peptoniphilus', 
"(CaLiETe olo E GHe v 

'Enhydrobacter', 'Finegoldia', 'Propionibacterium', 
'Acinetobacter', 'Massilia', 

'Hymenobacter', 'Corynebacterium', 'Bacillus', 'Micrococcus', 
'Mobiluncus', 
'Sphingopyxis','Ureaplasma',' 'Caulobacter', 'Gardnerella', 'Chlamydia' 
"pA ee aiiis 

'Mycobacterium', 'Herbaspirillum', 'Lactobacillus', 
'Achromobacter', 'Atopobium'] 

microb genus selected > microb[gen list] 


rho,  - sp.stats.spearmanr(microb genus selected.T) 

rho - pd.DataFrame(rho, index > microb genus selected.index, 
columns > microb genus selected.index) 

sns.clustermap(rho, cmap - 'vlag', figsize - (20, 20)) 

plt.text(5,1.2,'Clustering HMP samples by Spearman correlation 

distance',fontsize-35) 


Clustering HMP samples by Spearman correlation distance 
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نلاحظ بوضوح 4 مجموعات تتوافق مع عينات الفم والأمعاء والجلد والمهبل من مشروع HMP‏ 
أكبر مجموعة هي عينات الفم.في حين أن ثاني أكبر تجمع يتوافق مع عينات Gut HMP‏ 


إعداد البيانات وتدريب مصنف CNN‏ 

الآن نحن بصدد استخدام أسماء 48 جنسًا بكتيريًا محددًا خاصًا بالأنسجة لاستخراج معرّفات الجينوم 
المرجعية لجميع الأنواع والسلالات المقابلة من قاعدة بيانات RefSeq NCBI‏ يوضح المقتطف 
أدناه كيفية تنزيل واستخراج معرفات الجينوم المرجعية للأنواع والسلالات الخاصة بالأنسجة المقابلة 
للأجناس ال 48 المختارة الخاصة بالأنسجة. لهذا الغرضء سنستخدم ملف مطابقة الاسم إلى المراجع 
MapBactName2ID.txt‏ الذي يمكن تنزيله من github‏ الخاص بي. تم إنشاء الملف عن طريق 
استخراج رؤوس الجينومات المرجعية ومطابقة أسماء ملفاتهم (GCF-ids)‏ بالعناوين. 


#Download bacterial reference genomes from NCBI RefSeq 

wget 

ftp://ftp.ncbi.nlm.nih.gov/genomes/refseg/bacteria/assembly summary 
EXE 

grep 'Complete Genome' assembly summary.txt \ 

» assembly summary complete latest reference genomes.txt 

awk -F "Nt" '$12--"Complete Genome" && $11--"latest"(print $20)]' 
assembly summary.txt ١ 

» assembly summary complete latest reference genomes paths.txt 


mkdir BacterialGenomes 

OE 3L TM $ (Cat 

assembly summary complete latest reference genomes paths.txt) 
do 

wget -P BacterialGenomes $[(i])/*genomic.fna.gz 

done 


Grep reference genome IDs by the selected genera names 

grep -wFf tissue specific genera names oral 12genera.txt 
apBactName2ID.txt » ١ 

p SUS SUECLELGS FASE LDS CE TxE 

grep -wFf tissue specific genera names gut 12genera.txt 

apBactName2ID.txt > ١ 
Et SUS SUSCLELE FASE IDS CUE txt 

grep -wFf tissue specific genera names skin 12genera.txt 
apBactName2ID.txt > \ 
TISSUS SPECE Taste DDS Sim, TAE 

grep -wFf tissue specific genera names vagina 12genera.txt 
apBactName2ID.txt » ١ 
tissue specific fasta IDs vagina.txt 


OI‏ عندما يكون لدينا معرّفات الجينوم المرجعي (ملفات (fasta‏ المقابلة للأجناس الخاصة بالأنسجة 
يمكننا تقسيم الجينومات المرجعية وإنشاء 4 مجموعات من التسلسلات (على سبيل المثال 80 nt‏ 
طويلة) مع التسميات 0 و1 و2 و3 لكل مجموعة تتوافق مع الأجناس الميكروبية للفم والأمعاء والجلد 
والمهبل.في الحلقة أدناهء قرأنا أولاً الملفات التي تحتوي على معرّفات fasta‏ لكل من الأنسجة الأربعة, 
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ثم نقرأ ملفات fasta‏ لكل من معرفات fasta‏ ونختار 3000 تسلسل عشوائي بطول 80 nt‏ أثناء ذلك 
سنقوم Cad‏ بإسقاط التسلسلات التي تحتوي على N‏ و H‏ و M‏ وغيرها من النيوكليوتيدات غير 
المتعارف عليها ونقتصر على التسلسلات التي تحتوي على A‏ و C‏ واا وى فقط. 


import gzip; import random; import pandas as pd 


nt = 80 # length of each sequence 

Nseq = 3000 # number of randomly drawn sequences from each fasta- 
file 

random.seed(123) 


all tissues segs = [] 
all tissues labs - [] 
for lab, tissue in enumerate(['oral', 'gut', 'skin', 'vagina']): 


print('Working with tissue: () 
Ckck ck تمل نما‎ ck ck kk ck ck ck ck ck ck kk ck ck kk ck ck k ck ck k ck ck kk KK KT .format (tissue) ) 

Tasta CE = Olu OAC COV ELSES تع عم‎ fasta De | r TISSUE cr 
Ex CT, 

header = None, sep = 'Nt') 


tissue_seqs = [] 
for i in range(fasta df.shape[0]): 


waea Gaio open resce CEO IE, EY ae MERE 
content = f.readlines() 
del content[0] 


random segs random.sample (content, Nseq) 
random secs — Ij- zerio [Omt] decode) zor J im 
random segs] 
random seqs = [k for k in random seqs if 
Ee COE (HAS = (0 uel Eo انافك‎ ) QU) 2 ( 


and ko Coume (G SU 

and k.count('T') » 0 and len(list(k)) 2 
ique amel UIN MOE wa k 

and 'H' not in k and 'K' not in k and 
VIV sexus sus. Je 

and VRE mot wa Pe cuml UU MOE im Js amd 
HyU OE sum e 

and "زلا‎ mow iia Pe enel OU moe ag $e and 
WSU MOE a kil 


Tiges sels = Tige sece r andon sece 


if((i * T) $ 500 == 0): 
print('Finished () fasta-files'.format(i -* 1)) 


EL tissues SeS eas sues segs i ESSE SEAS 
print(all tissues segs[(len(atl tissues seqs)- 

S) نمه د‎ (assi 65252015 secs) l) 
لالد‎ SSUES labs = alil tissues leis r [lab] ORS SEIS) 
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prime lali tisstes labs rema 2 506 s 
S) د‎ LENE SSUES leiss) 13) 


بمجرد إنشاء مجموعة بيانات من التسلسلات ذات العلامات labelled sequences‏ حيث يحصل 
كل تسلسل على تسمية 0 أو 1 أو 2 أو 3 تتوافق مع Vaginas Skin; Gut; Oral‏ سيتعين علينا 
تحويل التسلسلات إلى موتر واحد مشفر ساخنا numpy 3 54.2») one-hot-encoded tensor‏ 
ثلاثية الابعاد) يمكن قراءته بواسطة خوارزمية التعلم العميق مثل CNN‏ (11. بعد ذلك. سنقوم Ca‏ 
بتقسيم التسلسلات ذات التشفير الواحد الساخن إلى مجموعات فرعية للتدريب والاختبار. 


import numpy as np 
from sklearn.preprocessing import LabelEncoder, OneHotEncoder 


input features - [] 
integer encoder - LabelEncoder(); one hot encoder - OneHotEncoder() 
tor Sectera in all tissues S6065 
integer encoded = integer encoder.fit transform(list (sequence)) 
integer encoded - np.array(integer encoded).reshape(-1, 1) 
one hot encoded - one hot encoder.fit transform(integer encoded) 
input features.append(one hot encoded.toarray()) 
input features <> np.stack(input features) 


one hot encoder - OneHotEncoder() 
Labels = mp o arrey ads tisgues lalis) reshape (=i, t) 
input labels = one hot encoder.fit transform(labels).toarray() 


from sklearn.model selection import train test split 
Traim feature, EOS EEIEUEES, crain labels, test labels = 
trein test sdb 

input features, input labels, test size = 0.25, random state = 


)42 
أخيرًاء دعنا نكتب بُنية بسيطة 1D CNN‏ ونبدأفي تدريب المصنف على التعرف على أنماط التسلسل 


التي تتوافق مع 4 cob‏ هي المجتمعات الميكروبية عن طريق الفم والأمعاء والجلد والمهبل. 


from tensorflow.keras.optimizers import SGD 

from tensorflow.keras.models import Sequential 

from tensorflow.keras.callbacks import ModelCheckpoint 
from tensorflow.keras.callbacks import ReduceLROnPlateau 
from tensorflow.keras.layers import 
Convi1D,Dense,MaxPoolinglD,Flatten,Dropout 


model = Sequential )( 
model.add(ConviD(filters-512,kernel size-20,input shape-(train feat 
ures.shape[1],4), 


padding = 'same', activation = 'relu')) 
model.add(MaxPoolinglD(pool size - 2)) 
model.add(Dropout(0.2)) 
model.add(Flatten()) 
model.add(Dense(256, activation = 'relu')) 
model.add(Dropout(0.1)) 
model.add(Dense(4, activation = 'softmax')) 
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epochs = 30; lrate = 0.01; decay = lrate / epochs 

SGD(lr = lrate, momentum = 0.9, decay = decay, nesterov =‏ = موه 
False)‏ 

model.compile(loss-'categorical crossentropy',optimizer-sgd,metrics 
-['accuracy']) 


checkpoint = 
ModelCheckpoint("weights.best.hdf5",monitor-'val accuracy',verbose- 
1, 


save best only - True, mode - 'max') 
EID sEeduccelROnElatcaumonitons- yal accuracy“, actor OR 
patience - 5, 
veroose = 1, mim Joe = 0.0001) 
Mi SlEOEY = model tie (treim 262 2012957 treim labels, Epocha = EpOCS, 
vez DOSE = i; 


wa date On split = 0,25, paren size = 32; 
shuffle = True, 
callbacks = [rlrp, checkpoint]) 


Model Loss 


Train 
119. — Validation 


Epoch 


Model Accuracy 


Train 
Validabon 2 


Accuracy 


Epoch 
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أفضل طريقة للتحقق مما إذاكانت الشبكة قد تعلمت تصنيف التسلسلات هي تقييم أدائها على مجموعة 
اختبار جديدة تتكون من بيانات لم تلاحظها على الإطلاق أثناء التدريب. هناء نقوم بتقييم النموذج على 
مجموعة الاختبار ورسم النتائج كمصفوفة ارتباك .confusion matrix‏ 

import itertools; import numpy as np 


from sklearn.metrics import confusion matrix 
import seaborn as sns; import matplotlib.pyplot as plt 


plt.figure(figsize - (10,8)) 


predicted labels - model.predict(np.stack(test features)) 

cm > confusion matrix(np.argmax(test labels, axis - 1), 
np.argmax(predicted labels, axis - 1)) 

print('Confusion matrix: Nn',cm) 


cm = cm.astype('float') / cm.sum(axis = 1)[:, np.newaxis] 


plt.imshow(cm, cmap - plt.cm.Blues) 
plt.title('Normalized confusion matrix') 
jobs CO EOE DRE (0) 
plt.xlabel('True label') 
plt.ylabel('Predicted label') 
MESELE, i. 2. Sie mueve, 15 2» 3]) 
joie.» GE LORY SEE V ) 
for i, j in itertools.product(range(cm.shape[0]), 
range(cm.shape[1])): 
pilre scere (y A, sonne (emus Ul, 9.2389) 5 
horizontalalignment = 'center', 
color = 'white' if cm[i, j] » 0.5 else 'black') 


Normalized confusion matrix 


Predicted label 


-03 


-02 


-01 


0 1 2 3 
True label 


scores = model.evaluate(test features, test labels, verbose = 0) 
print("Accuracy: %.2f%%" *; (scores[1]*100)) 


Accuracy: 59 5229 
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التمثيل الرسومي لمصفوفة الارتباك هو خريطة الحرارة الزرقاء blueish heatmap‏ التي توضح بنية 
تشبه الكتلة block-like structure‏ مما يعني أن المصنف 1D CNN‏ كان قادرًا على التمييز بين 
الفتات الميكروبية الأربعة جيدا. قد يبدو متوسط دقة التقييم الإجمالية البالغة 760 منخفضًا للوهلة 
الأولى OY‏ عقولنا مصممة على مشكلة تصنيف ثنائي حيث يمكن أن يعطي المصنف العشوائي دقة 
أساسية تبلغ 1/50 لذلكء قد تبدو نتيجتنا 60/ أفضل قليلاً من المصنف العشوائي. ومع ذلك يرجى 
تذكر أننا نتعامل هنا مع 4 فئات, وبالتالي يجب أن يمنحنا المصنف العشوائي دقة متوسطة تبلغ 1.25 
(يمكن تأكيدها عن طريق المحاكاة غير معروض هنا) مع انحراف معياري يبلغ حوالي 110-5 
اعتمادًا على حجم العينة. لذلك. دقة 60/ أعلى بكثير من القاعدة 7.25 التي يتوقعها المرء من مصنف 
عشوائي. علاوة على ذلك. سنستخدم المصنف المدرب أدناه للحصول على تقدير تقريبي لمساهمات 
المجتمع الميكروبيفي عينة ميتاجينومية عن طريق حساب متوسط التنبؤات من آلاف تسلسلات 
الحمض النووي. بافتراض أن دقة المصنف بنسبة 7.60 تسمح بالتنبؤات الصحيحة لغالبية التسلسلات» 
على الرغم من عدم تصنيفها جميعًا بشكل صحيح. إلا أن هذا لا يزال يمنحنا حدسًا جيدا حول المجتمع 
الميكروبي (الفم أو الأمعاء أو الجلد أو المهبل) الذي جاءت منه العينة. 


عمل تنبؤات عن التركيب الجرثومي 

نحن هنا بصدد التحقق مما إذا كان يمكن استخدام مصنف CNN‏ المدرب لاستنتاج التركيب 
الميكروبي microbial composition‏ لعينة ميتاجينومية عشوائية. لهذا الغرضء. سنختار ملفات 
fas metagenomic‏ العشوائية (من قواعد بيانات HMP‏ أو MGnify‏ أو 
(DIABIMMUNE‏ ونضع تنبؤات لكل تسلسل ميتاجينومي» ونعرض كسور التسلسلات التي تم 
تخصيصها لكل فئة من الفئات الأربعة (الفم. والأمعاء. والجلد والمهبل)ء التي تتوافق تقريبًا مع أجزاء 
المجتمعات الميكروبية (التركيب الميكروبي (microbial composition‏ الموجودةفي كل عينة. لنبداً 
ببعض العينات من مشروع HMP‏ أعلم أننا استخدمنا وفرة HMP‏ لاختيار العلامات الميكروبية 
الخاصة بالأنسجة (لم نستخدم بيانات التسلسل الخام «(raw sequencing data‏ ويمكن أن يكون 
هناك تحيزفي استخدام ملفات HMP fastq‏ لاستنتاج تركيبتها الميكروبية. ومع ذلك. فهذه بداية جيدة 
على الأقل إذا فشل مصنف CNN‏ عينات HMP‏ فمن الصعب توقع أداء جيدفي العينات المستقلة. 
du‏ سوف نكرر هذا الاستنتاج باستخدام عينات ميتاجينومية مستقلة m‏ من مشاريع أخرى غير 
مشاريع ۲ 11.ني الحلقة آدناه» قرأت ملفات HMP fastq‏ (اخترت Élie‏ عينتين من مسحات 
الفم. والأمعاء (Stool lI)‏ والجلد والمهبل)ء وقمت بترميز تسلسلاتهم الساخنة وتشغيل التنبؤات 
باستخدام مصنف CNN‏ المدرب. بعد ذلك قمت بتحديد أكثر التنبؤات موثوقية حيث حصل 
مجتمع ميكروبي واحد على احتمال 80/ على الأقل. Aul‏ أرسم كسور fractions‏ التسلسلات التي 
حددها المصنف لكل مجتمع ميكروبي. 


import numpy as np 
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from Bio import SeqIO 

from tensorflow import keras 

from collections import Counter 

from sklearn.preprocessing import LabelEncoder, OneHotEncoder 
tissue ligte = [VQOugUd". "used". "wi", "GE", "Sia", TOKEN, 
'Vagina', 'Vagina'] 


sample list 
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"SRSOT5073:] 


= [Dg vagine list = 


[] 


'.denovo duplicates marked.trimmed.singleton.fastq' 
EOE recorro in ceco perse lTaste Eiler 


if len(str(record.seq)) 


test SEG list = 
test sec list 
> 


KEC OUNE t (6 )) 0 


and 
euol NU mow abet Je 

and 
3üg Je 

and 
atgi de 

and 
in k] 


A OWE test Ce EUS = [] 


integer encoder = LabelEncoder(); 


OneHotEncoder() 


for sequenc 
integer encoded - 
integer encoder.fi 


aus Cest SEG lists 


MMS V^ xp tissue Jos] s» V ^" 4 Cole listli s 
EAS EOL)? 
>= 80: 
test seq list.append (str (record.seq)) 
Joel) [Osat] EOE J asa test Sec list] 
[e for k in test SO list L 
k- COME 2 (0 uel KOON )ا‎ c) 2 Q0 eel 
k.count('T') > O and len(list(k)) == nt 
SHU aow im k ancl VIX" mog 30m k cus! YUE mog 
IRU aOR ius k awel VS" mor ia k anci "WV nor 
"WU" OE, LAM e emei HE mog 300 e enel SY MOE 
one hot encoder = 
t transform(list (sequence)) 
integer encoded - np.array(integer encoded).reshape(-1, 1) 


one hot encoded - 
one hot encoder.fi 


t transform(integer encoded) 


LMoV ESSE £ 
input test fea 


predicted test probs 
model.predict(np.s 


atures.append(one hot encoded.toarray()) 
112595 = ARO 562612 1122115 6251 reatures) 


microbial frac 


tack(input test features)) 
tions-^ 


[Counter([np.argmax(j) 
predicted test probs 


(Gxptie oue || IE] e 
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if max(list(i)) 


N 
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686 دع عض‎ (Depp EAE (ز)‎ EOE p ana. ]2 EOE 1 AM 
predicted test probs 
ME mees (laswa) = 
(ibl ernesE NIY Ly 
Counter([np.argmax(j) for j in [i for i in 
predicted test probs 
acf masse (tsi (CE) 
CTE OE TED |) | 
66026 شح‎ mp erromes) EO 3| La [E sor t aum 
predicted test probs 
E max INSEE 
GUE OEE O ON 
microbial fractions - [i/sum(microbial fractions) for i in 
microbial fractions] 


oral list.append(microbial fractions[0]); 
gut list.append(microbial fractions[1]) 
Skin list.append(microbial fractions[2]); 
vagina list.append(microbial fractions[3]) 


peh Dararrtems N 9unsdle"s [i 4 V V = J EOC ip J im‏ = شه 

ESS Ue ligt; semple list) r‏ وده 
Orela @ral list, Out; gue listy OKIE‏ 

Skin list, 


'Vagina': vagina list]) 


df.plot(x = 'Sample', kind = 'bar', stacked - True, 
title = 'Microbial composition of HMP samples', figsize = 
(20,15)) 
plt.legend(loc = 'upper left', prop = ('size': 20]) 
Sample Oral Gut Skin ^ Vagina 


0 Oral SRS011243 0.686508 0.135582 0.065146 0.112765 
1 Oral SRS055495 0.535085 0.229923 0.147645 0.087347 
2 Gut SRS017247 0.244642 0.630946 0.042865 0.081547 
3 Gut SRS022713 0.256093 0.672017 0.024034 0.047856 
4 Ski SRS017156 0.023256 0.079050 0.734708 0.162986 
5 Skin SRS018369 0.014902 0.080032 0.817496 0.087570 
6 Vagina SRS062752 0.116100 0.295430 0.052072 0.536397 
7 Vagina SRS015071 0.129196 0.333672 0.028993 0.508138 
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Microbial composition of HMP samples 


Ll 

w =m m 
=m Skin 
- | 

08 

06 

04 

02 

00 


2 ^ 5 2 $ 8 g E 
8 H & 8 Es g E 8 
5 $ Z S S S 2 5 
n D [7] ue e N th n 
4 4 x 4 4 ع0‎ [4 4 
a 2| 59 2 b 9 L7 9, 
G a g s g 
E E 8 8 8 8 H $ 
> 
Sample 


يمكننا أن نرى Ul‏ نحصل على تنبؤات جيدة إلى حد ما لكل عينة عشوائية من HMP‏ أي أن أول اثنين 
يشبهان العينات عن طريق الفم لأن الميكروبات الفموية (الشريط الأزرق) تشكل معظم المجتمع 
الميكروبي.في حين أن النوعين الأخيرين يشبهان عينات الأمعاء وما إلى ذلك. تشير التسميات Oral"‏ " 
و Gut"‏ " وما إلى ذلك لكل ise‏ الجزء السفلي من الشكل أعلاه إلى الأنسجة الحقيقية حيث تم 
جمع العيناتفي مشروع HMP‏ 


باختصار» قمنا بتدريب مصنف CNN‏ باستخدام تسلسل الجينوم المرجعي للميكروبات الوفيرةفي 
الأنسجة المختلفة من مشروع HMP‏ بعد ذلك. شرعناني تقييم النموذج على عدد قليل من عينات 
HMP‏ العشوائية. ربما يمكنك رؤية مشكلة محتملة هنا. من ناحية أخرى» لم نستخدم تسلسلات أولية 
من عينات HMP‏ عند تدريب مصنف CNN‏ ويدلاً من ذلك استخدمنا الجينومات المرجعية 
للأجناس الأكثر HMP obh dips‏ من ناحية أخرى. Y‏ يزال هناك تسرب للمعلومات 
information leakage‏ لأننا ما زلنا نستخدم نفس المشروع (على الرغم من وجود أنواع مختلفة من 
البيانات) للتدريب والاختبار. لذلك قد يظل التقييم متحيرًا ويبدو جيدا لدرجة يصعب تصديقها. لإجراء 
تقييم أفضل» سنختار 8 عينات عشوائية عن طريق الفم. والأمعاء والجلد. والمهبل من المشاريع 
الميتاجينومية التي لا تتعلق ب HMP‏ 

From collections import Counter 


import random; import numpy as np 
from Bio import SeqgIO; from tensorflow import keras 
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from sklearn.preprocessing import LabelEncoder, OneHotEncoder 


random.seed(123) 
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Eumel "WW AOE 3us JE cuml "£V mor ia k cua! "dB MOE 
in k] 


integer encoder > LabelEncoder() 
one hot encoder - OneHotEncoder() 
otie cest features M 
Tor 56 1122535 lm tet sec Listi 
integer encoded - 
integer encoder.fit transform(list (sequence)) 
integer encoded - np.array(integer encoded).reshape(-1, 1) 
one hot encoded - 
one hot encoder.fit transform(integer encoded) 
input test features.append(one hot encoded.toarray()) 
input test features - np.stack(input test features) 


predilette Test Dros = 
model.predict(np.stack(input test features)) 

if sum(Counter([np.argmax(j) for j in [i for i in 
predicted test probs ١ 
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IE 
max(list(i))»cutoff]l).values())«500: 
cutoff - 0.6 
microbial fractions-^ 
[Counter([np.argmax(j) for j in [i for i in 
predicted test probs 
E E ET ()) 
GUE rosa ] 1 9) KOI 
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microbial fractions = [i / sum(microbial fractions) for i in 
microbial fractions] 

OE MEKE 2 loea. ILI معت‎ S I o corne (CUEN) 

print(microbial fractions) 


oral list.append(microbial fractions [0]) 
gut list.append(microbial fractions[1]) 
Skin list.append (microbial fractions[2]) 
vagina list.append(microbial fractions[3]) 


import pandas as pd 
dE c» 54 585029 اولض سردت )) تسود‎ 3. i m <i EOE i,j aba APCS list, 


[k replace (^o taste 5, o replace (n 1^," 4) o replace 7 (QUILT, 7") o replace 
CE RD 
EOE k in sample Listli “Oral; oral MESE, Guts 
gne, dite" 
Sensi a مكلك‎ listy Vacinas vacina Ligt) 
df.plot(x = ‘Sample’, kind = ‘bar’, stacked = True, 
title-'Microbial composition of other than HMP metagenomic 
projects’, 
figsize - (20,15)) 
plt.legend(loc = "upper left’, prop = ('size': 20]) 
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wmm Skin 
mmm Vagina 


Oral ERR3827177 


Oral ERR3827177 
Oral ERR3827196 

Gut G69146 pe 

Gut G69153 pe 
Skin 4491200149-1L1 S12 
Skin 4491200209-1L1 S66 
Vagina SRR6900017 
Vagina SRR6899929 


Microbial composition of random samples from different metagenomics projects 


Sample 


Oral 
0.717918 
0.659031 
0.238034 
0.280303 
0.000699 
0.004673 
0.007692 
0.000569 


Gut 
0.224576 
0.195681 
0.520740 
0.510101 
0.000806 
0.005340 
0.053846 
0.001138 


Skin 
0.003027 
0.002618 
0.000000 
0.001684 
0.924974 
0.919893 
0.246154 
0.059727 


Vagina 
0.054479 
0.142670 
0.241225 
0.207912 
0.073521 
0.070093 
0.692308 
0.938567 


Oral. ERR3827196 


Gut G69146 po 


Gut C60153. pe 


Sample 


Skin 4491200149-1L1 512 


Skin, 4491200209-1L1 S66 


Vagina. SRR6900017 


Vagina SRR6899929 
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هنا نرى مرة أخرى أن تنبؤات التراكيب الميكروبيةني 8 عينات من غير HMP‏ تتفق إلى حد ما مع 
المجتمعات الميكروبية الحقيقية cela Yig e‏ والجلد. والمهبل التي تم أخذ العينات منها. أحسنت! 
يمكن لمصنف CNN‏ المدرب لدينا تقديم تقديرات ذات مغزى للتكوين الميكروبي لأي عينة معينة. 


الانستنتاج 

في هذه المقالةء تعلمنا أن الميتاجينومية Metagenomics‏ تمثل بيانات ضخمة مناسبة لتحليل التعلم 
الالي والعميق. استخدمنا بيانات metagenomics‏ من مشروع Human Microbiome‏ 
(HMP)‏ وطورنا 1D CNN as‏ يمكنه التنبؤ بنجاح بالمساهمات من المجتمعات الميكروبية 
المختلفة (الفم أو الأمعاء أو الجلد أو المهبل) لعينة معينة بدءًا من التسلسلات الأوليةفي بيانات fastq‏ 
القياسية الشكل دون إجراء تقدير كمي للوفرة الميكروبية. ربما تقدم هذه الطريقة مزايا مقارنة باستدلال 
التركيب الميكروبي القياسي باستخدام .Source Tracker‏ 


المصدر 


https://towardsdatascience.com/deep-learning-on-human-microbiome- 
7854fba815fc 
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DNA Sequence للتنبق بالأنواع‎ DNA تصنيف تسلسل‎ (16 
Classification for Species Prediction 

يوجد الحمض النووي GDINA‏ خلايا كل كائن حي على الأرض. يمكن للعلماء دراسة الحمض النووي 
للكائنات الحية لفهم المزيد حول وظيفة الكائن الحي أو تحليل الحمض النووي لتحديد ما إذاكانوا قد 
وجدوا نوعًا جديداً. 


تصنيف الحمض النووي له العديد من الاستخدامات - من تحديد الأنواع species identification‏ 
إلى التمايز «differentiation‏ يمكن أن يوفر البحث رؤى حول كيفية اختلاف نوع واحد عن الآخر 
أو كيفية تطور نوع واحد. يمكن لتحليل التسلسل الجيني Genetic sequence analysis‏ تحديد 
الاختلافاتني الجينات» وعمليات الإدخالء والحذف داخل مجموعات فرعية من الحمض النوويء أو 
تحديد التغييرفي الأنماط الظاهرية من الأنواع إلى الأنواع. يمكن أن يخبرنا تحليل الاختلافاتفي 
التسلسلات من الأنواع المختلفة كثيرًا عن الاختلافات بين الأنواع» ولكن أيضًا عن مدى تشابه جميع 
الكائنات الحية. 


من خلال تحسين النمذجةني تحليل تسلسل الحمض النووي» يمكن للباحثين الجينوم تحقيق نتائج 
أكثر دقة وأسرع لتصنيف وتمييز الأنواع من عينات الحمض النووي. 

بالنسبة لهذا المشروع» سيكون تركيزي الأساسي على إظهار نماذج وطرق التصنيف. لاختيار مثالء 
قررت البحثفي تحليل تسلسل الحمض النووي» لأنني اعتقدت أنه سيكون مثيرًا للاهتمام والبيانات 
المتاحة للجمهور هائلة بشكل مذهل. 

الفرضية 

ماذا لو كان بإمكاني أخذ معلومات الحمض النووي من genome ejm‏ معين ومقارنتها بجينومات 
أخرى؟ هل ستكون هناك إشارةني الضوضاء؟ بالطبع. سيكون هناك وسيوجد. لكنني بدأت بفرضية العدم 
في السؤال: هل يمكن أن تكون هذه الجينومات غير مرتبطة أو مجرد تسلسلات عشوائية عند مقارنتها؟ 
بدلا من ذلك» آمل أن أجد نمط التشابه وآمل أن يتم قياس ذلكفي مقاييس نموذجي. أنا لست عالم 
أحياء لکن كعالم بيانات c data scientist‏ سأنظر إلى هذه المشكلة على أنها مشكلة ملاحظة خطأ loss‏ 
observing‏ ---التشابه بين الجينومات وشرح التباين بينهما من خلال التنبؤ بفئة كل منهما. من وجهة 
نظر فنيةء سيستخدم هذا المشروع طرق التعلم الآلي لتحليل وتصنيف تسلسل الحمض النووي من 
الآنواع المختلفة. سيتم استخدام النموذج الناتج للتنبؤ بأنواع مجموعة معينة من الفئات Fs‏ على 
التسلسل الجيني genetic sequence‏ وحده. سيركز هذا المشروعفي المقام الأول على الاختلافات 
الرياضية بين التسلسلاتفي الكود الجيني «genetic code‏ بدلاً من أي تحليل جيني خاص للجينات 
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والأنماط الظاهرية بين الأنواع. أنا مهتم بمشكلة كيف يمكن أن يكون نوعان متشابهين أو مختلفين من 
نوع آخر. من وجهة نظر معممة وإحصائية. 

*DNA ga Lo 

الحمض النووي DNA‏ أو الحمض النووي الريبي منقوص الأكسجين «deoxyribonucleic acid‏ 
هو جزيء يحتوي على الشفرة الموروثة inherited code‏ التي تستخدمها الخلاياني الكائن الحي 
لتوليد البروتينات. يوجدفي نواة الخلايا. يتكون الحمض النووي من أربع قواعد: الأدينين adenine‏ أو 
«A‏ أو السيتوزين cytosine‏ أو € » أو الجوانين guanine‏ أو ء أو الثايمين thymine‏ أو T‏ كل 
خيط strand‏ من الحمض النووي يتكون من خيطين متماسكين Go‏ بواسطة بنية أساسها السكر على 
شكل حلزون مزدوج. كل قاعدة متصلة بالخيط المعاكس من خلال قاعدتها التكميلية: يتصل A‏ دائمًا 
ب T‏ ويتصل Gl C‏ ب G‏ ويتصل G‏ دائمًا ب (C‏ ويتصل T‏ دائمًا ب A‏ وهذا يعني أن كل خيط 
مكمل من الحمض النووي يشبه الانعكاس من جهة أخرى. عندما يتم تسلسل الحمض النوويفي سلسلة 
مكونة من القواعد الأربعةء فقد تم فهرسة سلسلة واحدة فقطفي البيانات التي أقرأهاء بدون مكملها. 


Deoxyribonucleic acid (DNA) 


Major groove 


Minor groove 


من خلال العمليات البيولوجية والجزيئية المعقدة. يكرر الحمض النووي أو يخلق Geni‏ من نفسه تُعرف 
باسم mRNA‏ خيوط mRNA‏ هي عبارة عن نسخ مجزأة قصيرة من الحمض النووي DNA‏ يمكن 
أن تتحد مع أجزاء أخرى من mRNA‏ وبالتالي تخلق مجموعات تكون رمرًا لإنشاء البروتينات. تخلق 
التركيبات المختلفة بروتينات مختلفة ثم تستخدم هذه البروتيناتفي جميع أنحاء الخلية والكائن الحي. 
يعمل الحمض النووي مثل كود الكمبيوتر لإنشاء البروتينات مثل البرنامج» وبالتالي لماذا يشار إليه على 
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أنه رمز جينى أو اللبنات الأساسية للحياة. يمكن تحديد مجموعات فرعية من خيوط DNA‏ لإنشاء 
بروتينات معينة وتعرف باسم الجينات genes‏ 


يتم لف الحمض النوويني كل خلية معًا بإحكام» وعلى الرغم من أنه يشغل مساحة ميكروسكوبيةء إلا 
أنه طويل جدًا. إذا قمت بتفكيك خيط كامل من الحمض النووي البشري بعناية» فسيكون طوله حوالي 
KT 1.8‏ ويحتوي على 3 مليارات زوج قاعدي» أي مجموعات من A۸‏ و ToGo‏ 


سمح التقدم التكنولوجي للعلماء بتسلسل البيانات المجهرية ضمن هامش خطأ صغير. يُعرف العدد 
الإجمالي للجيناتفي أحد الانواع بجينوم هذا النوع species’ genome‏ قام مشروع الجينوم البشري 
The Human Genome Project‏ الذي استمر من عام 1990 حتى اكتمالهفي عام 2003( بتعيين 
الجينوم البشري بأكمله عبر حوالي 20000 عينة غير متداخلة. اليوم» هناك العديد من جينومات الأنواع 
المختلفة المعينة والمتاحة للجمهور للتنزيل للبحث والتحليل. 

طرق هندسة خصائص تسلسل الحمض النووي الشائعة 

علم الجينوم Genomics‏ هو مجال واسع للدراسة يصنف ويحلل ويرسم خرائط جينومات الكائنات 
الحية. ضمن علم البيانات الجينومية «genomic data science‏ هناك العديد من الطرق التي يمكن 
من خلالها استخدام التعلم الآلي لتحليل بيانات التسلسل. 


إذا تم أخذ خيط من الحمض النووي كمدخلء فقد تظهر السلسلة كمجموعة من الأحرف A‏ و © و © 
«Tg‏ مثل: ATGAAGAAGGTAACTGCAGAGGCTATTTCCTGGAAT'"‏ ..." 
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K-Mer Jgao 
minhash. أخرى شائعة للاستخدام. خاصة إذا كان طول التسلسل متغيراء تسمى‎ in 
هي طريقةفي علوم الكمبيوتر لمقارنة التشابه بين مجموعتين.في المعلوماتية الحيوية‎ 1 
لتحويل تسلسل إلى قاموس متكرر لسلاسل فرعية‎ minhashing استخدام‎ gSa bioinformatics 
الممكنة ل‎ k-mers يتم إنشاء الأعمدة لجميع‎ ES Ken لعدد صحيح‎ k-mers تسمى‎ k بطول‎ 
كل عموة یدیل لكل مجبوعة فرع يحجو عا من الساسلة على سیل‎ eeu Ta GCA 
عن طريق استخراج كل السلاسل الفرعية‎ k = المثال» يمكن تحويل سلسلة "663662" إلى 1-2215 ل2‎ 
سيكون لكل‎ "ca" و‎ "tc" و‎ "at" و‎ "ta"  "gtatca" ¬ "gt. ذات الطول 2 على طول السلسلة. من أعمدة‎ 

منها قيمة 1. 
يوجد أدناه رسم متحرك يوضح هذه الطريقة عندما يكون 3 = k‏ 


KmerTransformer(kz3) 


ACGTCGTACG 


البيانات 

لقد استخدمت خمسة جينومات مختلفة من قاعدة بيانات RefSeq‏ بيانات الحمض النووي للانسان 
Human‏ والشمبانزي Chimpanzee‏ والدولفين Dolphin‏ وشجرة البلوط Oak Tree‏ والفطر 
× كنت أرغبفي اختيار عدد قليل من الجينومات التي قد تكون متشابهة للغاية (بشري. 
شمبانزي» دولفين)؛ بالإضافة إلى زوجين سيكونان أقل قليلاً. 


نوبتبوك جوبيتر 
لقد قمت بترميز هذا المشروع Jupyter Notebook Python TP‏ والذي يمكن العثور عليه 
Bw‏ 


فيما يلي ملخص لعمليتي التكرارية: 
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ستيراد تسلسل , DNA‏ 
سأستخدم مكتبة BioPython‏ لتحليل ملفات FASTA‏ الموجودةني قاعدة بيانات RefSeq‏ 


يحتوي كل ملف على تسلسلات من جينوم الأنواع. لنلق نظرة على سجل واحد كمثال على البيانات 
التي يتم تحليلها. 


From Bio import SeqlIOfor seq record in 
SegIO.parse("data/GCF 000001405.40 GRCh38.p14 cds from genomic.fna", 
"fasta"): 4human fasta file 

print(seq record) 

break #break after printing one recordID: 
lcl|NC 000001.11 cds NP 001005484.2 1 
Name: lcl|NC 000001.11 cds NP 001005484.2 1 
Description: lcl|NC 000001.11 cds NP 001005484.2 1 [gene-OR4F5] 
[db xref-CCDS:CCDS30547.1,Ensembl:ENSP00000493376.2,GeneID:79501] 
[protein-olfactory receptor 4F5] [protein id-NP 001005484.2] 
[location-join(65565..65573,69037..70008)] [gbkey-CDS] 
Number of features: 0 
Seq ( ATGAAGAAGGTAACTGCAGAGGCTATTTCCTGGAATGAATCAACGAGTGAAACG...TAG' ) 


متهم هذا المشروع التسلسل (Seq)‏ كبياناتفي النموذج» لكنني سأحدد دالة مساعدة ستجمع عددًا 
SU‏ من أعمدة البيانات» فقطفي حالة رغبتفي الرجوع إليها لاحقا. 


560 gene protein target 
0  ATGAAGAAGGTAACTGCAGAGGCTATTTCCTGGAATGAATCAACGA. .. 0845 olfactory receptor 4F5 human 
1 ATGCCTAGACACACACATCCTTACTCTGCGTGCATCCCTGGCCTGG.. LOC112268260 uncharacterized protein LOC112268260 human 
2  ATGGATGGAGAGAATCACTCAGTGGTATCTGAGTTTTTGTTTCTGG... OR4F29 olfactory receptor 4F3/AF16/4F29 human 


3 ATGCGTAGACACACACATCCTTACTCTGCGCGCATCCCTGGCCTGG.. 166105378947 proline-rich extensin-like protein EPR1 isofor.. human 
4 ATGGATGGAGAGAATCACTCAGTGGTATCTGAGTTTTTGTTTCTGG OR4F16 olfactory receptor 4F3/4F16/4F29 isoform X1 human 


دعونا نلقي نظرة على تسلسل الحمض التووي الأول بطولة الإجمالي. 


Human df.loc[0,'seq']' ATGAAGAAGGTAACTGCAGAGGCTATTTCCTGGAATGAATCAACGAGT 
GAAACGAATAACTCTATGGTGACTGAATTCATTTTTCTGGGTCTCTCTGATTCTCAGGAACTCCAGACCT 
TOCTATTTANETTETTTT TTOTAT TC TATEEACEAATEETET TI ECAAACETTETTATTETERTARCAGT 
GGTATCTGACTCCCACCTTCACTCTCCCATGTACTTCCTGCTAGCCAACCTCTCACTCATTGATCTGTCT 
CTGTCTTCAGTCACAGCCCCCAAGATGATTACTGACTTTTTCAGCCAGCGCAAAGTCATCTCTTTCAAGG 
CE TECT ETTAN TAT TONET TEAC TIETE CTIE UN DUC ICON RUNE CE 
CTTTGACAGATATATAGCAATATGCAAGCCCCTACACTACACTACAATTATGTGTGGCAACGCATGTGTC 
GGCATTATGGCTGTCACATGGGGAATTGGCTTTCTCCATTCGGTGAGCCAGTTGGCGTTTGCCGTGCACT 
TACTCTTCTGTGGTCCCAATGAGGTCGATAGTTTTTATTGTGACCTTCCTAGGGTAATCAAACTTGCCTG 
TACACATACETACACEC TACATATTATECTCATIECTEAACACTECTEHEC TEAC TETETE TET TT 
CTTCTAATCATCTCATACACTATCATCCTAATGACCATCCAGCATCGCCCTTTAGATAAGTCGTCCAAAG 
ETETETOCACTITEACTECTEACATTACACTACTTE EPUMEDSCIüOSRONNENCHOPTERSPIM MC 
CTGGCCATTCCCCATCAAGTCATTAGATAAATTCCTTGCTGTATTTTATTCTGTGATCACCCCTCTCTTG 
AACCCAATTATATACACACTGAGGAACAAAGACATGAAGACGGCAATAAGACAGCTGAGAAAATGGGATG 
CACATTCTAGTGTAAAGTTTTAG' 
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أريد إنشاء جميع الميزاتفي نموذجي من تسلسلات كهذه. لقد كتبت فئة TransformerMixin‏ 
مخصصة هنا لتحويل العمود "560" إلى قواميس تكرار k-mer‏ التي تمت مناقشتها أعلاه ثم تحويلها 
إلى إطار بيانات Pandas‏ . تسمى هذه الدالة KmerTransformer‏ ويمكن العثور عليها على github‏ 
الخاص بي. 


تحليل البيانات الاستكشافية 
قبل أن أقوم بأي تحليلء سأضيف جميع الأنواع من بيانات تسلسل الحمض النووي التي جمعتهاني إطار 


560 gene protein target 
0  ATGAAGAAGGTAACTGCAGAGGCTATTTCCTGGAATGAATCAACGA. .. 0845 olfactory receptor 4F5 human 
1 ATGCCTAGACACACACATCCTTACTCTGCGTGCATCCCTGGCCTGG.. LOC112268260 uncharacterized protein LOC112268260 human 
2  ATGGATGGAGAGAATCACTCAGTGGTATCTGAGTTTTTGTTTCTGG OR4F29 olfactory receptor 4F3/AF16/4F29 human 
3 ATGCGTAGACACACACATCCTTACTCTGCGCGCATCCCTGGOCTGG.. ١66105378947 proline-rich extensin-like protein EPR1 isofor.. human 
4  AIGGATGGAGAGAATCACTCAGTGGTATCTGAGTTTTTGTTTCTGG... OR4F16 olfactory receptor 4F3/4F16/4F29 isoform X1 human 


أول شيء نريد رؤيته هو مقاييس تسلسل الحمض النووي نفسه. دعونا نلقي نظرة على طول التسلسل» 


مجمعة حسب الأنواع. 


target chimp dolphin 


human 


count 20000.000000 20000.000000 20000.000000 


mean 2517.103150 2053.371500 
std 5673.450049 1784.546128 
min 108.000000 108.000000 
25% 996.000000 969.000000 


50% 1612.500000 1554.000000 
75% 2763.000000 2568.000000 


2223.870600 
3788.036344 
37.000000 
939.000000 
1515.000000 


2592.000000 


max 106962.000000 28215.000000 107976.000000 


mushroom oak 
13330.000000 20000.000000 
1459.588297 1516.557900 
1114.727843 1368.491338 
153.000000 93.000000 
729.000000 753.000000 
1167.000000 1209.000000 
1806.000000 1875.000000 


13854.000000 23319.000000 


يمكننا الآن تحديد أن متوسط طول كل تسلسل بين الأهداف هو نفسه نسبيًاء بصرف النظر عن البيانات 
الجينومية لشجرة البلوط والفطر. 
باستخدام دالة KmerTransformer‏ المخصصة التي قمت بإنشائهاء يمكنني تحويل البيانات وإجراء 
بعض التحليلات المرئية الأساسية. سأبدأ ب 3 - k‏ لذلك ليس لدي الكثير من الأعمدة ويمكننى رؤية 
البيانات a‏ بسهولة. 


دعنا نفحص بسرعة أن البيانات يتم ملؤهافي الأعمدة بشكل صحيح. 
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AAA AAC AAG AAT ACA ACC 866 ACT AGA AGC .. TCT TGA TGC TGG TGT TTA TTC TTG TTT target 


0 10 13 13 16 (19 10 4 21 15 11 m 34 23 13 21 29 16 29 20 35 human 
1 9 20 14 4 30 18 4 13 41 19 25 10 4&5 44 12 5 T 9 9 human 
2 T 5 12 10 17 10 3 22 15 14... 31 14 10 30 33 11 33 17 33 human 
3 8 30 15 4 44 34 13 15 64 30 . 52 9 84 70 14 4 10 6 7 human 
4 7 5 12 10 17 10 3 22 15 14 n 31 14 10 30 33 11 33 17 33 human 


5 rows * 65 columns 


وإلقاء نظرة على الارتباط بين الأعمدة .. 


Correlation between trimers 


توضح خريطة الحرارة heatmap‏ هذه أن هناك ارتباطًا كبيرًا بين معظم ميزاتناء وهذا ليس مفاجنًا لأن 
كل k-mer‏ له سلاسل ej‏ مشتركة مع أعمدة k-mer‏ الأخرى. سيؤثر هذا على نموذجناء وقد 
أتمكن من إيجاد طريقة لاستخراج الميزات التي لا ترتبط أو تستخدم المصنفات التي يمكنها التعامل 
مع مستوى عال من العلاقة الخطية. 


متوسط القيم لكل مقلم مجمعة حسب الأنواع 
AU‏ دعنا نلقي نظرة على القيم المتوسطة لكل مجموعة عمود من خلال الحمض النووي لخمسة أنواع 
التى أضفتها إلى إطار البيانات هذا كمثال. 


AM Ld AM AND Q^ nec ^cG ACT ASA ao - TG vor TGA Toc o ToT m mo TS TU 
mean mean 


L2 (6220400 20.0680 34012250 24.700960 42.0209 35.012090 12680560 23100056 61794440 26257900 .. 1170070 3577230 47.590409 420/4500 51240000 XL8/7440 2 301160 35017060 333794 3342700 
ومنت‎ 001900) 3300840 mawa وموك 7د‎ ARTE dOJKUNS 74601500 35542400 MAPAKO 524990 — IDASAMO mosas 37/800 45254000 34445740 KONO 74541950 MANINO 37 106 3500940 
dupim 47601000 29.000000 48.433050 26500250 36420869 35.0055 15087300 27:39:00 &39'0M6 44904550 .. 3305175 3185415 40079600 37.540450 47.272250 29.000000 17240760 31348706 27253200 28249450 
om 4800700 10.268900 40872250 35.526400 26296650 165398 766100 2217060 39199190 21407250 . — 24355) MAGGS 37357769 24596600 35.391740 25.290800 22789000 1047606 10040250 3759180 
maskom 211000975 2440408) 78287!) 23006472 25572614 2317002 21090068 13181073 27273226 2242M07  GAIMT!BT OSES 22120971 24272080 2AI0R020 191/3878 DATED 20245226 2019000) 2A712079 


3 ws x éd columns 


Scaled Mean Values of Each Trimer Grouped by Genome 


Human Genoma 


Chimp Genome Dolphin Genome Oak Genome 


cc 
ccc 
226 
EJ 
ee 
Gx 
o0 
cre 
JA 


2 


في هذا الرسم البياني» نتخيل تلك القيم المتوسطة لكل عمود مرتبة على شكل شبكة ثنائية الأبعاد. كل 
مخطط فرعي هو أحد الأنواع الأربعة» والآن يمكننا بصريًا مقارنة وسائل قيمهم معًا. يبدو أن بعض 
الأنماط تظهر بالفعل. بالنسبة لجينومات الثدييات mammalian genomes‏ (الإنسان والشمبانزي 
والدلفين)ء هناك الكثير من المناطق المتشابهة بصريًا. حتى أن بعض أجزاء جينوم البلوط مرتبطة 
بالأجزاء الثلاثة الأخرى» ولكن بالنسبة للجزء الأكبر. من السهل التمييز بالفعل أنه يمكن أن يكون 


Cosine Similarity between Genomes (Mean Values) 


-1.00 
0.99 
0.98 
0.97 
0.96 
0.95 
0.94 


human chimp dolphin mushroom 
target 


chimp human 


target 


dolphin 


لقد رأينا بصريًا التشابه بين ميزاتنافي الفئات المختلفةء ولكن يمكنني أيضًا حساب تشابه جيب التمام 
cosine similarity‏ بين القيم المتوسطة لكل X3‏ لاحظ أن الجزء السفلي من هذا المقياس لا يزال 
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يمثل قيمة عالية للتشابه )< 90/). يبدو أن جميع فثاتنا لديها تشابه كبيرني جيب التمام» ولكن بالطبع» 
يرى الحمض النووي للإنسان والشمبانزي أعلى مستوى من التشابه. 


دعنا الآن نلقي نظرة على تصور التباين variance‏ ميزات كل جينوم. 


Scaled Variance of Each Trimer Column Grouped by Genome 


Human Genome Chimp Genome Dolphin Genome Oak Genome Mushroom Genome 
r- BRI ~ NE CTS 
pr i ac axe ACT AC ae € كمد‎ 
ABC AGS AGT AGA AGCO AGG AGT 200 
ACA are are Lus AA ae Are ATT 
CA OC ته عه‎ CM ec CG CAT 
عت‎ ce ae جه‎ ba ce œo or 
150 
OCA coc ع‎ ecr OGA عنم‎ er 
CA Cc de cH عت امت‎ cm on 
a Bi | cle 
SA êx a Ga Gt c er sen 
aa os cor Gea osc cce cot 
GA Gc cre sm GA Gre ين كيف‎ 
MA mE me IN WA عمد عم‎ TN 50 
TEA Te T€ To TOA TOC e er 
rT 
Tu w E Tar a ToC wt Or 
ra mt "e ا‎ n TFC m om 


s‏ على هذا التصورء يمكننا أن نرى أن بعض الجينومات لها تباين أعلى من غيرها. سيكون من المثير 
للاهتمام معرفة ما إذا كان لهذا تأثير على النماذج متعددة الطبقات أو يمكن تفسيره أثناء التصنيف 
الثنائى لفئتين لهما مستويات مختلفة من التباين. 


المصنف الثنائي للحمض النووي البشري مقابل الشمبانزي 

يمكننا أن نفترض أن الحمض النووي للإنسان والشمبانزي يشبه إلى حد كبير الحمض النووي للإنسان 
والبلوط من اختبارات التشابه الأولية لتحليل البيانات الاستكشافية EDA‏ وجيب التمام. سأحاول 
تشغيل مصنف الانحدار اللوجستي logistic regression classifier‏ على الحمض النووي للإنسان 
والشمبانزي فقط. 


Human DNA vs Chimpanzee DNA Logisitic Regression Confusion Matrix 
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—— Pipeline (AUC = 0.55) 


00 02 04 06 08 10 
False Positive Rate (Positive label: 1) 


الانحدار اللوجيستي غير المعدل untuned Logistic Regression‏ ليس دقيقًا على الإطلاق. درجة 
الدقة بنسبة 53 هي بالكاد أكثر من مجرد فرصة عشوائية OM‏ الفئتينفي مجموعة الاختبار متوازنة. قد 
يكون هذا بسبب العلاقة الخطية العالية لميزاتنا. نظرًا لأنني ملتزم بمجموعة الميزات هذه. على الأقل 
في الوقت الحالي. سأجرب مصنفات مختلفة قد تعمل بشكل أفضل مع علاقة خطية عالية. 


نظرًا لأن الانحدار اللوجستي لا 2 مصنف جيد LILLJ‏ فسوف أقوم بتنفيذ بحث شبكي grid‏ 
search‏ للعديد من المصنفات المختلفة لمعرفة ما إذا كان بإمكاننا العثور على واحد يناسب البيانات 
بشكل أفضل. لا يزال النموذج يستخدم نفس أدوات اقتطاع بيانات data trimers‏ التدريب والاختبار 
(k - 3)‏ من .KmerTransformer‏ سأفترض أنه مع k‏ أعلى؛ سنرى درجة دقة أفضلء لكن الأمر 
سيستغرق Cal‏ وقتًا طول لتناسب كل نموذج. B]‏ وجد بحث الشبكة هذا مصنفات جيدة» فيمكنني 
زيادة ني بحث شبكة آخرء ولكن على مجموعة أصغر من المعلمات. Sa‏ دعونا نجرب المصنفات 
غير المعدلة. 


البحث الشبكى على المصنفات المختلفة 
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humen CAMS model = Pipeline em 
(Okmercecranstormer Kmertranstorneir(k=6, 
verbose=False)), 
(*scaler', StandardScaler()), 
('"classifier', ExtraTreesClassifier()) 


1) 


human chimp model.fit(X train, y train) 
y preds - human chimp model.predict(X test) 


print(classification report(labeler.inverse transform(y test), 


labeler.inverse transform(y preds)))precision EEL 1 EOE 
support 
chimp 0.87 0.88 0.88 4979 
human 0.88 0.87 0.88 5021 
accuracy 0.88 10000 
macro avg 0.88 0.88 0.88 10000 
weighted avg 0.88 0.88 0.88 10000 


Human DNA vs Chimpanzee DNA ExtraTrees Confusion Matrix 


True label 


Predicted label 


Human DNA vs Chimpanzee DNA ROC Curve 


True Positive Rate (Positive label: 1) 


0.0 ——— Pipeline (AUC = 0.94) 


0.0 0.2 0.4 0.6 0.8 1.0 
False Positive Rate (Positive label: 1) 
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هذه ليست نتيجة سيئة مقارنة بنموذجنا الأساسي البالغ 53/. الدقةفي هذا النموذج هي 88/ لتصنيف 
الحمض النووي للإنسان والشمبانزي. تبلغ درجة ,947 AUC‏ وتحتضن الزاوية اليسرى العلوية من 
الرسم البياني. هل يمكننا تحسين هذه النتيجة بضبط المعلمة الفائقة Tfhyperparameter tuning‏ 
بالتأكيد. ولكن دعنا نحاول إدخال خوارزمية جديدة للمعالجة المسبقةفي القسم التالي لمعرفة ما إذاكان 
بإمكاننا تحسين خوارزمية تحويل الميزات أولاً. 

K-Group K-mer محول‎ 

هنا سوف أقوم بإنشاء محول transformer‏ مخصص آخر للمعالجة المسبقة للبيانات. على غرار محول 
.KmerTransformer‏ سيقوم هذا المحول بإنشاء قواميس تردد لکل صف من البيانات. على عكس 
KmerTransformer‏ . فإنه سيجمع جميع أعداد ‏ و C‏ و 6 و Nas T‏ من تسلسلها الفريد. 

بعبارة أخرى. ]15 كان لدينا تسلسل مثل "AAGTCGAGT'"‏ سيكون لدينا 3 مجموعات A‏ و1 C‏ 
و3 6 و12. لذلك سوف يملا التسلسل عمودًا باسم: "820103712". وبالمثل؛ فإن ees‏ مثل 
"0108880106" يملأ نفس العمود أيضًا. هذا يعني أننا سننشئ عددًا أقل من الأعمدة لنفس .k‏ 
وبالتالي» og‏ عا بشكل كبير عندما نستدعي المحول. 


KGroupKmerTransformer(kz3) 


ACGTCGTACG 


يمكن أيضًا العثور على فئة المحولات هذه على صفحة GitHub‏ الخاصة بي. 
باستخدام فئة KgroupKMerTransformer‏ المخصصة. دعنا نجربها على البيانات باستخدام k‏ 
.k = 36 s = 12‏ 
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KGroups Confusion Matrix (k-12) KGroups Confusion Matrix (k-36) 
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KGroups ROC-AUC (k-36) 
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— Pipeline (AUC = 0.98) 
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False Positive Rate (Positive label: 1) 


نحصل الآن على 3i»‏ 90 عند مقارنة الحمض النووي للإنسان والشمبانزي و 36 = k‏ بعد تقليم 
pruning‏ الأعمدة التي لم يتم ملؤها مطلقاء استخدمنا 7386 عمودًا إجماليًا. تبلغ درجة AUC‏ لدينا 
الآن 96/ وتبدو أفضل مما كانت عليهفي نموذج محول k-mer‏ السابق. 


N 
C1 
Q00 
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حتى (M‏ جيد جد — لنجرب هذا النموذج على بيانات الفئات المتعددة -Multi- Class data‏ 


cJU.oJI fa) LI . ni . LI 
Kk = 36 على بيانات متعددة الفتات مع‎ KgroupKMerTransformer الآن سنطبق‎ 


Multiclass Performance with Kgroup Transformer (k-36) 
precision recall fl-score support 


Carmo (0. YL O. Oael 5050 
dolphin 0.90 0,07 0,66 5034 
human 0.91 0.87 0.89 4964 
mushroom 10)5 75 O 8A4 095 
oak 0.86 0.91 0.89 5060 


AOE EAE 10.077 23333 
Mele EO ave 0-66 0-67 0-66 23539359 
weighted avg 0.87 0.87 0.87 23333 


يبدو أن نموذج Kgroup Multiclass‏ أقل »3 من النموذج الثنائي. خاصةفي فئات معينة. على سبيل 
المثال» درجة ۴1 للفطر منخفضة بشكل خاص مقارنة بالآخرين. te‏ نشغل نموذج 
KmerTransformer‏ الأصلى على بيانات متعدد الفتات ونقارن النتائج. 


Multiclass Performance with Kmer Transformer (k-6) 
precision recall fl-score support 


Garwo O OM 0-62 Oaea 5O50 
leuljelemt. U. SS 0S 092 OIA 
human 0.87 0.86 0.86 4964 
1255101 09b (9594 (9495. 3225 
oak 0.89 0.95 0.92 5060 


ACCU AC 10,009) 23333 
MAGES ej (0519/9) (0.1940 090 23333 
weighted avg 0.89 0.89 0.89 23333 


K-Groups Transformer (k23€) - Accuracy B7% 


K-Mer Transformer (k=6) - Accuracy 8995 
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يمكننا أن نرىني هذه المقارنة لمصفوفات الارتباك أن نموذج KmerTransformer‏ المعالج مسقا 
أفضل بكثيرني تصنيف بعض أجزاء البيانات التي يواجهها نموذج Kgroup‏ وقتا أصعب. بالنسبة 
للنموذج النهائي. سنجمع بين محولي المعالجة المسبقة السابقين اللذين أنشأناهماني نموذج واحد. 


Kgroup + Kmer- jail النموذج‎ 

بعد البحث الشبكي لتحديد أفضل k‏ لكل من KgroupKMerTransformer‏ و 
 .KmerTransformer‏ بالإضافة إلى البحث عن المعلمات الفائقة عن أفضل 
(ExtraTreesClassifier‏ سننشئ النهائي ونرى النتائج. 


النموذج النهائى للمعلمات الفائقة: 


e KgroupTransformer: k-24 
e Kmerlransformer: k-6 


e  ExtralreesClassifier: n estimators-300 


باستخدام Feature Union‏ ن sklearn‏ داخل خط ewl‏ یمکننا أن نجمع الأعمدة المحولة من 
Kmerlransformer 5 — Kgrouplransformer‏ قبل تشغيلها ‏ من خلال 


.Extra TreesClassifier 
لكر‎ Pipeline | 
| trans union: FeatureUnion ١ 
p1 p2 | 
| | *  KGroupKMerTransformer M KMerTransformer E 


roupKMerTransformer[k-24)  |KMerTransformer(k-6, normalize-T 


» StandardScaler | 
1 i 


M ExtraTreesClassifier 


ExtraTreesClassifier(n estimators-300, random state-42 


precision recall fl-score support 

chimp 9.89 0.82 0.86 5050 
dolphin 9.93 0.92 0.93 5034 
human 9.89 0.87 0.88 4964 
mushroom 9.90 0.96 0.92 3225 
oak 9.89 0.95 0.92 5069 
accuracy 0.909 23333 
macro avg 0.90 0.90 0.90 23333 


weighted avg 0.90 0.90 0.90 23333 
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ROC Curves tor &xtrarreesClassifier 
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النتائج 


حقق نموذجي النهائي دقة 90/ على بيانات الاختبار لتصنيف التسلسلات بين 5 جينومات من الحمض 
النووي. على الرغم من وجود مجال للتحسينفي النموذج» بالإضافة إلى تجربة طرق التصنيف الأخرى 
(مثل الشبكات العصبية والتعلم العميق)ء يمكنني رفض فرضيتي idal‏ ويمكننا افتراض وجود العديد 
من أنماط التشابه بين فئات الجينوم بيانات. علاوة على à‏ يمكننا تمييز الأنماط والتباين وتصنيف 
الأنواع من تسلسلات الحمض النووي الفردية بدقة عالية. 

إذا كنت مهتمًا بمعرفة المزيد عن الكود الخاص بيء فيمكنك التحقق من نوتبوك جوبيتر الكامل على 
صفحة GitHub‏ الخاصة بي. 


المصدر: 


https://medium.com/ Qrollingstorms/dna-sequence-classification-for-species- 


prediction-df202bcb621f 
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Identification of الحقيقي مع التعلم العميق‎ DNA تحديد تسلسل‎ (17 
Bona Fide DNA Sequences with Deep Learning 
https://github.com/]dduryea/SegID :Github مشروع‎ 


في الفصل الدراسي الماضي. درست دورة تعلم الآلة الإحصائية statistical machine learning‏ 
جامعة رايس -Rice University‏ ركزنا بشكل أساسي على مجموعات بيانات الصور. بمافي ذلك 
015812-0 الشهير. كانت دورة adl‏ لكننا لم نتعلم الكثير حول كيفية التعامل مع النص text‏ أو 
البيانات المتسلسلة (3.sequential data‏ نهاية هذا الأسبوع قررت اختبار المياه. LÍ‏ منفتح دائمًا على 
الاقتراحات. لذا إذا كان لديك أي تعليقات أو أسئلة أو مخاوف. فيرجى إبلاغي بذلك! لقد بدأت للتو 
في التلاعب بهذا الموضوع وأحاول أن أتعلم بقدر ما أستطيع. 


بصفتي متدريّافي المعلوماتية الحيوية bioinformatics‏ بدوام جزئيفي كلية بايلور Baylor‏ للطب (على 
الجانب الآخر من الشارع من رايس يو)ء أعمل مع البيانات الجينية والجينية الوراثية طوال الوقت. 
الجينوم البشري genome‏ عبارة عن سلسلة من 3 مليارات زوج أساسي (TGC A)‏ 
ويوفر مجموعة كبيرة من البيانات للبدء. هناك العديد من الأسئلة التي يمكننا طرحها حول الجينوم؛ 
لكنني أردت أن أبدأ بسؤال بسيط: هل يمكن لنموذج التعلم العميق أن يميز الفرق بين التسلسلات 
الحقيقية real sequences‏ للحمض النووي البشري والتسلسلات المزيفة المتولدة fake,‏ 


"generated sequences 


الخطوة 1: جمع البيانات 

في البداية كنت بحاجة لجمع بعض بيانات الحمض النووي DNA‏ الجينوم البشري متاح للجمهور 
ويسهل الوصول إليه عبر الإنترنت. يمكن الحصول على تسلسل الحمض النووي الخام من جامعة 
كاليفورنيا سانتا كروز (/https://genome.ucsc.edu) California Santa Cruz‏ بالأمر التالي: 


curl http://togows.org/api/ucsc/hg38/chr19:400,000-40,000,500.fasta > bigseq.txt 
والذي‎ «hg38 سيؤدي هذا إلى تنزيل بيانات تسلسل الحمض النووي من الجينوم البشري (الإصدار‎ 


يست يستخدم على نطاق واسعفي التعلية التوضيحي (annotation‏ على الكروموسوم 9 من مؤشر الزوج 
الأساسي 400000 J|‏ , 40000500. 


بشكل آساسي» سيؤدي هذا إلى تخزين تسلسل هائل من و © و © و GT‏ الملف المسمى 
.bigseq.txt‏ سيبدو مثل هذا (لكن آلاف الأسطر أطول): 
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الخطوة 2: المعالجة المسبقة للبيانات 
TTGTGGACCGAGATCCAGGTCTCAGTGTAGACCAAGGAACAGAGGCAGCCCCTACTCGGG‏ 
CTCCCAGGCTCCAGCCAGGCCTGCTAGGTGGGCGGCCTCTGCCCGTGTGATGGAAGGAAG‏ 
CCAGGCTCAGAGATGGGGTGACTTGTCCCACGTCCTGGAGGGTCTCACAGCTCCACCACG‏ 
GCCAGGAGACTTCAGTCCAGGGGGCCTCCATCCCCAGCGACCTTCACCTGACCCCCAGGG‏ 
GACCCCAGCCAACAAGACCCGGCCTGCAGCTCCGGAACGGGGGAGGGCTGCTCTCCACCG‏ 
CCCCTGTGCGGCCGCCCGGGAAAGTGCAGGCGGGCCGGGCGCGGTGGCTCACGCCTGTGA‏ 
TCTCAGCACTTTGGGAGGCCGAGGTGGGCGGATCACCTGAGGTCGGGAGTTCGAGGCCAG‏ 
CCTGCCCAACATGGAGAAACCCTGTCTCTACTAAAGATACAAAATTAGCCAGGCGTGGTG‏ 
ACGCATGCCTGTAATCCCAGCTACTGGAGTGGCTGAGGCAGGAGAATCGCTTGAGCCCGG‏ 
GAGACAGAGGTTGCGGTGAGCTGAGATCGCACCATTGCACTCCAGCCTGGGCAACAAGAG‏ 
CGAAACTCAGAAAAAAAAGAAAAGAAAGTGCAGGGGACCCGCCGTCGGGGTGGGGGCGGC‏ 
GCTGCCCAGCCTCTGTCCCACTTCCATGCACTTGACCTCGACCCTCCGGCCTCCGTCTGC‏ 
GATCTTCCCGTGCCTGAATATGAGGCTTGGAACAGACCCAGACCTTCCTGCCTGCCCGTC‏ 
CTGAGTGGCCCCGGGACCCCGCCCCATCTTTGGCCCCCAGCCCCTGCCTCTCTGCCGCCT‏ 


كان هذا هو الجزء الجديد بالنسبة لي. قد يكون العمل مع البيانات النصية أمرًا صعبًاء لكن لحسن الحظ 
لدينا فقط 4 رموز (1 لكل زوج أساسي (base pair‏ للعمل معها. نظرًا OY‏ نماذج التعلم العميق لا 
يمكنها العمل مع هذا النوع من البيانات بشكل مباشرء فقد احتجت أولاً إلى تحويلها إلى بيانات رقمية. 
لقد قمت بتمثيل C (12 A‏ مع G2‏ مع 3 و T‏ مع 4. لقد استخلصت 3500 تسلسل فرعي» طول 
كل منها 10000 زوج أساسيء وقمت بتحويل البيانات إلى تنسيق رقمي» وأعطيت كل نقطة من نقاط 
البيانات هذه التسمية 1 لقد قمت بشكل عشوائي بإنشاء 3500 تسلسل بطول 10000 وأعطيت هذه 
التسمية 0. المزيد عن هذافي .Github repo (https://github.com/Jdduryea/SegID)‏ قمت 
بتقسيم البيانات إلى بيانات التدريب والتحقق من الصحة (تقسيم 20/80( باستخدام -SKLearn‏ 


الخطوة 3: استكشاف البيانات والتصور 
استكشاف البيانات الخاصة بك أمر ضروري دائمًا. ألقيت نظرة على توزيع الأزواج الأساسيةفي البيانات 
الحقيقية والمزيفة. 
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يبدو أن كلا مجموعتي البيانات لهما توزيع منتظم Éw uniform distribution‏ للأزو اج الأساسية 
base pairs‏ سيواجه النموذج وقتا صعبّاني التمييز بين البيانات الحقيقية والمزيفة بمجرد النظر إلى 
الأعداد النسبية لكل زوج أساسيفي تسلسل معين. 


الخطوة 4: إنشاء النموذج 

حاولت إنشاء نموذج ذاكرة طويلة قصيرة المدى dong short-term memory (LSTM)‏ لکن 
هذا استغرق وقتا طويلاً للتدريب على الكمبيوتر المحمول الخاص بي. لقد جربت أيضًا الشبكة امامية 
التغذية الاساسية «vanilla feed forward network‏ لكن الأداء كان سيئًا. کان الانحدار اللوجستي 
logistic regression‏ البسيطفي البيانات أسوأ. كدت أتخلى عن المشروع» معتقدة أنه ربما لم تكن 
المشكلة قابلة للحل» لكنني قررت أن أعطيها فرصة أخيرة. 

اخترت نموذج تلافيفي احادي البعد convolutional model‏ 1-0 مبني باستخدام .Keras‏ الفكرة 
الأساسية للالتفاف احادي البعد 1-4 هي أن الطبقة الأولى من النموذج تنظر إلى جزء صغير من الحمض 
النووي وترسل إشارة اعتمادًا على ما رآه. ثم ينتقل إلى الجزء الصغير التالي ويفعل الشيء نفسه. تستمر 
هذه العملية حتى "انزلقت slid‏ " الطبقة الأولى أو "ملتفة "convolved‏ فوق تسلسل الإدخال. تلتقط 
الطبقة الثانية الإشارة من الطبقة الأولى وتنفذ روتيئًا مشابهًاء ولكن هذه المرة يكون تمثيل البيانات أكثر 
تجريداً نظرًا لأنه يلتف عبر هذه الإشارات الجديدة. بعد 303« تحدد طبقة التجميع pooling layer‏ 
المناطق ذات أقوى إشارات الإخراج وترسل تلك الإشارات إلى الأمام. 
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Layer (type) Output Shape Param 4 
convid 129 (ConviD) (None, 9999, 16) 4 00000 
convid 130 (ConviD) (None, 9998, 16) 528 

max poolingld 31 (MaxPooling (None, 3332, 16) 0 

convid 131 (ConviD) (None, 3330, 16) 784 

global average poolingld 26 (None, 16) 0 

dense 164 (Dense) (None, 100) 1700 
dropout 94 (Dropout) (None, 100) 0 

dense 165 (Dense) (None, 1) 101 


Total params: 3,161 
Trainable params: 3,161 
Non-trainable params: 0 


None 


لقد قمت بتكديس بضع طبقات تلافيفية convolutional layers‏ بأحجام فلتر صغيرة» وبعض 
التجميعات pooling‏ وطبقة كثيفة مخفية hidden dense layer‏ لبعض التثليج على الكعكة. لقد 
استخدمت إنتروبيا متقاطعة ثنائية لدالة الخطأ «ADAM (5 «binary cross entropy‏ 
وتنشيطات ReLU‏ 


أداء النموذج 

بعد قليل من التدريب على 17 المتواضع لجهاز الكمبيوتر المحمول» كنت سعيدا جد بالنتائج. كان ell‏ 
النموذج جيداني بيانات التدريب والتحقق من الصحة! ما يقرب من 100// دقة! لقد حملت مجموعة 
بيانات الاختبار النهائية خلال مرحلة التدريب / التحقق من الصحة واختبرت النموذج على مجموعة 
البيانات النهائية هذه. حيث حققت دقة 99.714/. 


يمكننا أن نرى مدى جودة أداء النموذج أثناء تدريبه بمرور الوقت. يكون منحنى بيانات التدريب ساسا 
da‏ بينما يأخذ منحنى بيانات التحقق من الصحة بعض التقلبات الحادةء لكن كلاهما يتقارب مع دقة 
مثالية تقريبًا. لم تكن هناك فترات epochs‏ قليلة أخرى لتؤذي نظرًا لأن دقة التحقق كانت لا تزال تتزايد 
عند بلوغ الحد الأقصى للفترة. 


265 17( تحديد تسلسل , Bona Fide DNA‏ مع التعلم العميق 


Model Performance 


104 — train 
— وا‎ 


e 
© 


Accuracy 


0.54 


0 2 4 6 8 
Epochs 


يعرض النموذج مقايضة جيدة بين الإيجابيات الحقيقية true positives‏ والإيجابيات الزائفة false‏ 
.positives‏ أي أنه لا يبدو أنه يفضل 9 على الأخرى. 


Receiver Operating Characteristic 


true_positive_rate 
S o o 
^ eo eo 
7 


e 
N 


e 
o 


0.0 0.2 0.4 0.6 0.8 1.0 
false positive rate 


الاستنتاجات 
ركز هذا المنشور على مشكلة بسيطة: معرفة الفرق بين الحمض النووي الحقيقي والمحاكى (المزيف). 
يمكن تمييز هذا الحمض النووي الحقيقي عن الحمض النووي المزيف يدعم الحقيقة المعروفة بأن 
الحمض النووي لدينا منظم للغاية وليس مجرد ضوضاء عشوائية. للمضي قدمّاني التعلم الشخصي 
الخاص بي» بالإضافة إلى بحثيفي المعلوماتية الحيويةء أود معالجة المزيد من المشكلات المثيرة 
للاهتمام والاستفادة من الطبيعة عالية التنظيم للحمض النووي. 


المصدر 


https://medium.com/(2)jackduryea/identification -of-bona-fide-dna 


sequences-with-deep-learning-9dee008125a8 
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18( نموذج التعلم العميق للتنبق Deep learning model mRNA Hai‏ 
to predict mRNA degradation‏ 
تصميم نموذج التعلم العميق الذي Lus‏ بمعدلات التحلل ¿degradation rates‏ كل قاعدة 
لجزيء الحمض النووي الريبي RNA‏ باستخدام مجموعة بيانات Eterna‏ التي تضم أكثر من 
0 جزيء من RNA‏ 


لقاحات (mRNA‏ طليعة مكافحة جائحة COVID-19‏ وهي مصحوبة بقيود. تحد مشكلة 
الاستقرارفي جزيتات RNA‏ المرسال messenger RNA (mRNA)‏ من حزمهاني محقنة يمكن 
التخلص منها وتوزيعها حول العالم باستخدام نظام التبريد (nih.gov) refrigerating system‏ 
يتمثل التحدي الرئيسي في تصميم لقاح مستقر لل MRNA‏ يمكنه تحمل الشحنفي جميع أنحاء العالم 
oM‏ قطع واحد يمكن أن يجعل اللقاح بأكمله عديم الفائدة. اكتشف الباحثون Cal‏ أن جزيئات 
mRNA‏ تميل إلى التحلل iie LL degrade‏ وفي هذا المشروع» سنقوم بتصميم النموذج للتنبؤ 
بمعدل التحلل degradation rate‏ الذي يمكن أن يساعد العلماء والباحثين على تصميم لقاحات أكثر 
(GL ial‏ المستقبل. حاليًاء للتغلب على هذه المشكلة؛ نحتفظ بهذه اللقاحات تحت التبريد e ASSI‏ 
لكن هذا أيضًا محدود لأن هذه اللقاحات متاحة لعدد أقل من الناس حول العالم. OpenVaccine‏ 


prone to cutting 


safe from degradation 


mRNA molecule 


أهداف المشروع 

في هذا المشروع» سنقوم باستكشاف مجموعة البيانات الخاصة بنا ثم التسلسل المُعالج مسبقاء 
والهيكلء. وميزات نوع الحلقة المتوقعة بحيث يمكن استخدامها لتدريب نموذج GRU‏ للتعلم العميق. 
أخيرًا توقع سجلات التحلل degradation records‏ على مجموعات البيانات العامة واختبارها. 
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الانستعداد 
سنستخدم TensorFlow‏ كمكتبتنا الرئيسية لبناء وتدريب نموذجنا و JSON / Pandas‏ لاستيعاب 
البيانات. للتصور. سنستخدم 1106197 وللتلاعب بالبيانات .Numpy‏ 


f Dataframe 

import json 

import pandas as pd 

import numpy as np# Visualization 

import plotly.express as px# Deeplearning 

import tensorflow.keras.layers as L 

import tensorflow as tf# Sklearn 

from sklearn.model selection import train test split#Setting seeds 
tf.random.set seed (2021) 

np.random.seed (2021) 


معلمات التدريب 
Target columns e‏ : التفاعلية. 1110م «deg Mg 50C «deg Mg‏ 8110م «deg‏ 
deg 50C‏ 


Model Train o‏ : صحيح BE‏ كنت تريد تدريب نموذج يستغرق ساعة واحدة للتدريب. 


# This will tell us the columns we are predicting 

deg Meo SUC deg prO,‏ لاس Gols = [reactivity eg Ne‏ ع وض وعم 
dea SOC [‏ 

Model Train = True f True if you want to Train model which take 1 hour 
(Eo. Crema 


مقياس أداء النموذج الخاص بنا هو MCRMSE‏ (متوسط جذر العمود متوسط الخطأ التربيعي 


£ 


«(Mean column-wise root mean squared error‏ والذي يأخذ الجذر التربيعى للخطأ 
التربيعى للحقيقة الأساسية لجميع الأعمدة المستهدفة. 


N n 
RMSE = | T — fi)? 
MCRMSE = ب‎ » » j;j) 
predicted والمتوقعة‎ actual حيث عدد أعمدة هدف الحقيقة الاساسية المسجلةء وهي القيم الفعلية‎ 
على التوالى.‎ «values 
def MCRMSE(y true, y pred) :## Monte Carlo root mean squared errors 


OSE MSE > Cr rectes mean (el sende e = y oe ch A5) 
return tf.reduce mean(tf.sqrt(colwise mse), axis-1) 


تتوفر بيانات تحلل mRNA‏ على .Kaggle‏ 


شرح تفاصيل الأعمدة 


-error يجب أن يتطابق هذا مع طول أعمدة التفاعلية و * ع6 وأعمدة‎ Seq scored e 


seq length o‏ طول التسلسل. 
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sequence e‏ يصف تسلسل RNA‏ وهو مزيج من ى و © ولا وح لكل عينة. 

structure e‏ مصفوفة من (0) و. الأحرف التي يتم التبرع بها للقاعدة هي أن يتم إقرانها 
paired‏ أو إلغاء إقرانها .unpaired‏ 

ireactivity e‏ هذه الأرقام هي قيم تفاعلية لأول 68 قاعدة تستخدم لتحديد البنية الثانوية 
المحتملة لعينة RNA.‏ 

10 احتمالية التحلل بعد الحضانة بدون المغنيسيوم على الرقم الهيدروجيني‎ ideg 5110م‎ e 
linkage أو الوصلة‎ base عند القاعدة‎ 

10 احتمالية التحلل بعد الحضانة بالمغنيسيوم على الرقم الهيدروجيني‎ ideg Mg 5110م‎ e 
عند القاعدة أو الوصلة.‎ 

:deg 50C .‏ احتمال التحلل بعد الحضانة بدون المغنيسيوم عند 50 درجة مئوية عند القاعدة 


أو الوصلة. 

ideg Mg 500 e‏ احتمالية التحلل بعد الحضانة بالمغنيسيوم عند 50 درجة مئوية عند 
القاعدة أو الوصلة. 

ه * error‏ *: الأخطاء المحسوبةفي القيم التجريبية التي تم الحصول عليهاني التفاعلية 
وأعمدة * deg‏ 


:Forecasted loop type °‏ أنواع الحلقة التي يحددها bpRINA‏ من Vienna‏ والتي 
تقترح S: paired Stem, M: Multiloop, I: Internal loop, B: Bulge, H: ٠‏ 
.Hairpin loop, E: dangling End, X: external loop‏ 


مراقبة البيانات 
data dir = "stanford-covid-vaccine/"‏ 
meern = DA rees Jeen (Cewe obse" 4p CEA SON, NESE)‏ 
SOM, Jose Mete)‏ كم test = jore! Jeon(Cata Cir sp‏ 
sample df = pd.read csv(data dir * "sample submission.csv")‏ 


لدينا تسلسل وبنية وأنواع حلقات متوقعةفي تنسيقات نصية. سنقوم بتحويلها إلى رموز رقمية بحيث 
يمكن استخدامها لتدريب نماذج التعلم العميق. ثم لدينا مصفوفات داخل الأعمدة من 
deg 50C JJ} reactivity error‏ سنستخدمها كأهداف. 

train.head(2)print('Train shapes: ', train.shape) print('Test shapes: 


', test.shape)Train shapes: AO, O 
Test shapes: 965947 0 


تحتوي مجموعة بيانات الاختبار فقط على التسلسل sequence‏ والهيكل structure‏ ونوع الحلقة 
المتوقع predicted loop type‏ وطول السلسلة s4 scored fulana seq length‏ والمعرف 
iid‏ سنستخدم مجموعة بيانات اختبار للتنبؤ بمعدل التحلل لدرجة لوحة القائد العام public leader‏ 


.board score 
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توزيع الإشارة إلى الضوضاء 
یمکننا أن نرى أن توزيع الإشارة إلى الضوضاء signal-to-noise distribution‏ يتراوح بين 0 إلى 
ol, 5‏ غالبية العينات تقع بين 6-0. لدينا أيضًا قيم سالبة علينا التخلص منها. 


fig = px.histogram( 

train, 

"signal to noise", 

nbins-25, 

spice eiemel EO 262085 iss terres y 
width-800, 

height-400 

) 

fig.show() 


signal to noise distribution 


count 


1 


signal to noise 
EEE = crem ey (Usato to noise كه‎ 1%) 
طول تسلسل الاختبار‎ 
بعد النظر إلى توزيع طول التسلسل» نعلم أن لدينا طولين تسلسلين مميزين» أحدهما عند 107 والآخر‎ 
.130 عند‎ 


fig = px.histogram( 

best, 

"seq length", 

nbins-25, 

El e> ١ 5 00226 LENGER CUSE P‏ دا 
width-800,‏ 

height-400 

) 

fig.show() 


sequence length distribution 


«nunt 


seq length 
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تجزثة الاختبار إلى إطار بيانات عام وخاص 
دعنا نقسم مجموعة بيانات الاختبار الخاصة بنا على أساس طول التسلسل. سيؤدي القيام بذلك إلى 
تحسين الآداء العام لنموذج GRU‏ الخاص بنا. 


obe = testere ("sse lencia == TONo verte Qf =‏ لك الاسم 
EESE SUEY (Vecs lencia == 150%)‏ 


إنشاء حرف إلى قاموس أعداد صحيحة سنستخدمه لتحويل تسلسل RINA‏ والبنية ونوع الحلقة التنبؤية 


إلى أعداد صحيحة. 


token2int = (x: i for i, x in enumerate("().ACGUBEHIMSX")] 
tolken2dmu( IC: O, yt tnu QU PATI OU A GU b UO: 6G, TBI: 
7, :"هس"‎ 8; "85:90 CT: 10, 24:11 ST: 12, TX: 13} 

تحويل إطار البيانات الى مصفوفة ثلاثية الابعاد 
تأخذ الدالة أدناه إطار بيانات Pandas‏ وتحولها إلى مصفوفة NumPy‏ ثلاثية الأبعاد. سنستخدمه 


لتحويل ميزات التدريب والأهداف. 


def dataframe to array (df): 
return np.transpose(np.array(df.values.tolist()), (0, 2, 1)) 


ترميز التسلسل 
Tokenization of Sequence‏ 
تستخدم الدالة أدناه سلسلة من قاموس الأعداد الصحيحة التي أنشأناها مبكرًا لتحويل ميزات التدريب 
إلى مصفوفات تحتوي على أعداد صحيحة. ثم سنستخدم dataframe to array‏ لتحويل مجموعة 
البيانات الخاصة بنا إلى مصفوفة NumbPy‏ ثلاثية الأبعاد. 
def dataframe label encoding(‏ 

dF, EokenZinte, COle= escranca, 2ك ا‎ ure N, recitetiedgelooDp EY M 
)z 
return dataframe to array( 


df[cols].applymap(lambda seq: [token2int[x] for x in segl) 
) ## tokenization of Sequence, Structure, Predicted loop 


المعالجة المسبقة للميزات والتسميات 
e‏ استخدام دالة الترميز على التسمية label encoding‏ ميزات التدريب لدينا. 
e‏ تحويل إطار البيانات الهدف إلى مصفوفة ثلاثية الأبعاد. 
train inputs = dataframe label encoding(train, token2int) ## Label‏ 
encoding‏ 


train labels = dataframe to array(train[target cols]) 44 dataframe to 
3D array to 


Î‏ والتعقق من االضيحة 
تم بيانات التدريب لدينا | جموعات تدريب والتحقق من الصحة. نحن نستخدم فلتر إشارة | 
تقسيم بي يب لدينا إلى مجمو ريب وا من نحن م فلتر إشارة | 
ضوضاء noise filter‏ لتوزيع مجموعة البيانات الخاصة بنا بالتساوي. 
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se creim, x val, y Crain, y vel = treim Cest الم‎ 

Treu mottes; cren labels, CESE Sze l; rencon sStete= A, 
stratify-train.SN filter 

) 


المعالجة المسبقة لإطار البيانات العام والخاص 

في وقت سابق» قمنا بتقسيم مجموعة بيانات الاختبار الخاصة بنا إلى dale‏ وخاصة بناءٌ على طول 
التسلسل» والآن سنستخدم dataframe label encoding‏ لترميزها وإعادة تشكيلهافي مصفوفة 
NumPy‏ كما فعلنا نفس الشيء مع مجموعة بيانات التدريب. 


public inputs - dataframe label encoding(public df, token2int) 
private inputs - dataframe label encoding(private df, token2int) 


التدريب /تقييم النموذج 

قبل القفز مباشرة إلى نموذج التعلم العميق» اختبرنا معززات التدرج gradient boosts‏ الأخرى مثل 
.CatBoosts Light GBM‏ أثناء تعاملنا مع التسلسل» جربت نماذج -BILSTM‏ لکن أداءها جميعًا 
كان أسواً مقارنة بنموذج GRU‏ الثلاني مع التنشط الخطي linear activation‏ 


يتأثر هذا النموذج بنماذج xhlulu‏ الأوليةء وقد اندهشت من مدى بساطة طبقة [1<1في تحقيق أفضل 
النتائج الممكنة دون استخدام زيادة البيانات data augmentation‏ أو هندسة الميزات feature‏ 


-engineering 


def build model ( 

mbed size, f Length of unique tokens 

seq len-107, # public dataset seq len 

pred len-68, # pred len for public data 
dropout-0.5, 4 trying best dropout (general) 
sp dropout-0.2, $ Spatial Dropout 

embed dim-200, # embedding dimension 

hidden dim-256, f hidden layer units 

). 8 

inputs > L.Input(shape-(seq len, 3)) 

embed > L.Embedding(input dim-embed size, 
output dim-embed dim) (inputs) 

reshaped = tf.reshape( 

embed, shape=(-1, embed.shape[1], embed.shape[2] * embed.shape[3]) 
) 

hidden > L.SpatialDropoutlD(sp dropout) (reshaped) 
3X BiGRU layers 

hidden = L.Bidirectional( 

L.GRU( 

hidden dim, 

dropout-dropout, 

return sequences-True, 

kernel initializer-"orthogonal", 

) 

) (hidden) 
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hidden = L.Bidirectional( 

L.GRU( 

hidden dim, 

dropout-dropout, 

return sequences-True, 

kernel initializer-"orthogonal", 
) 
) (hidden) 

hidden = L.Bidirectional( 

L.GRU( 

hidden dim, 

dropout-dropout, 

return sequences-True, 
kevnelsimaralszer-'orihogonal v 
) 
) (hidden) 

Since we are only making predictions on the first part of each 
sequence, 

we have to truncate it 

enuncateda > hidden 7 Pred lenl 

out = L.Dense(5, activation-"linear") (truncated) 

model = tf.keras.Model (inputs=inputs, outputs=out) 
model.compile(optimizer-"Adam", loss-MCRMSE) # loss function as of 
Eval Metric 

return model 


بناء النموذج 

بناء نموذجنا عن طريق إضافة حجم التضمين embed size‏ )14( وسنستخدم القيم الافتراضية 
عن E e‏ 

للمعلمات الأخرى. 


107 :sequencelength,|.L.- طول‎ o 

68 :prediction length طول التنبؤ‎ œ 

0.5 :dropout التسرب‎ e 

0.2 :spatial dropout التسرب المكاني‎ e 

200 :embedded dimensions الأبعاد المضمنة‎ e 

256 :hidden layers dimensions أبعاد الطبقات المخفية‎ e 


model = build model( 

mbed size-len(token2int) 4$ embed size > 14 
) ## uniquie token in sequence, structure, predicted loop type 
model.summary()Model: "model" 


Layer (type) Output Shape Param f£ 
input 1 (InputLayer) None, LO | 0 
embedding (Embedding) (None, 107, 3, 200) 2800 


tf.reshape (TFOpLambda) (None, 107, 600) 0 
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spatial dropoutid (SpatialDr (None, 107, 600) 0 
bidirectional (Bidirectional (None, 107, 512) 1317888 
Dude e نض ننم‎ l (üshbehbeereqesieis (None, 107 S12) 111 
Bi Ga ree kn دون‎ 2 NB direct on Mons; OM o) MEATZA 
kf. Operatore ooeritan (S (Nons, Ger S12) 0 

dense (Dense) (None, 68, 5) 2565 


Total params: 3,688,693 
Trainable params: 3,688,693 
Non-trainable params: 0 


تدريب النموذج 
سنقوم بتدريب نموذجنا لمدة 40 فترة epochs‏ وحفظ model checkpoint‏ مجلد النموذج. لقد 


جربت أحجام الدفعات batch sizes‏ من 16. 32. 64 وإلى حد بعيد 64 حجم دفعة أنتجت نتائج 


أفضل وتقارب سريع fast convergence‏ 


كما يمكننا أن نلاحظ أن IS‏ من خطأ التدريب والتحقق من الصحة (MCRMSE)‏ يتناقص مع كل 


تكرار حتى 20 فترة ومن هناك يبدأونفي التباعد diverge‏ بالنسبة للتجربة التالية» سنحافظ على عدد 


الفترات محددًا بعشرين فترة للحصول على نتائج سريعة وأفضل. 


if Model Train: 
history = model.fit( 
xX 1 

Vadim, 


validation data-(x val, y val), 


batch size-64, 
epochs-40, 
verbose-2, 
callbacks-[ 


J, 
) 
Epoch 1/40 
30/0 = 695 = lossi 0,4536 = 
Epoch 2/40 
30/30 - 57s - loss: 0.3856 - 
Epoch 3/40 
30/30 - 57s - loss: 0.3637 - 
Epoch 4/40 
30/390 = 576 = OSS 035488 = 
Epoch 5/40 
30/30 - 57s - loss: 0.3357 - 
Epoch 6/40 
50/30 = SS = loss: 0.3295) = 


val tossa O, 


vedl MOSS Os 


val MOSS Of 


val MOSSE Os 


val lossa O, 


wal diem Op 


tf.keras.callbacks.ReduceLROnPlateau (patience-5), 
tf.keras.callbacks.ModelCheckpoint ("Model/model.h5"), 


INIG 


3601 


3410 


3255 


3188 


3163 
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30/90 — 578 = 1 


Epoch 35/4 
30/30 
Epoch 36/4 
30/30 
Epoch 37/4 
30/30 
Epoch 38/4 
30/30 
Epoch 39/4 
30/30 
Epoch 40/4 
30/30 = 55 = 
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تقييم تاريخ التدريب 


تم تقليل كل من خطأ التحقق من الصحة والتدريب حتى 20 فترة. أصبح خطأ التحقق من الصحة GE‏ 
بعد 35( لذافي رأيي» يجب أن نختبر النتائجفي كل من 20 و35 فترة. 


if Model Train: 
fig = px.line( 


history.history, 
wes akon "eub lossy 


labels-("index": 


title-"History" 


) 
fig.show() 


Histo 


7 


LU poch" ; 


"value": 


"MCRMSE"], 


تحميل النماذج وعمل التنبؤات 
تم تقسيم مجموعة بيانات الاختبار إلى مجموعات عامة وخاصة لها أطوال تسلسل مختلفةء لذلك من 
أجل التنبؤ بالتحلل على أطوال مختلفةء نحتاج إلى بناء نموذجين مختلفين وتحميل نقاط الحفظ 
checkpoints‏ المحفوظة لدينا. هذا ممكن oY‏ نماذج RNN‏ يمكن أن تقبل تسلسلات ذات أطوال 


متفاوتة كمدخلات. 


18( نموذج التعلم العميق للتنبؤن بتحلل E mRNA‏ 


سنقوم ببناء نموذجين مميزين بتسلسلات متباينة وأطوال توقع. يحتوي نموذجنا العام على 107 طول 
النموذجين للتنبؤ بتحلل mRNA‏ 


TECEL lole = bridle mecel (seg LENO, oree HENO, 
mbed size-len (token2int)) 

model private = build model(seq len-130, pred len-130, 
mbed size-len (token2int)) 

model public.load weights ("Model/model.h5") 

model private.load weights ("Model/model.h5") 


لقد نجحنافي توقع كل من مجموعات البيانات العامة والخاصة.في الخطوة AJLI‏ سنقوم بدمجها 
باستخدام معرف الاختيار test id‏ 


public prece = model public.predict(public inputs) 
DE elel Peds — 
model private.predict(private inputs)private preds.shape(3005, 130, 5) 


المعالجة اللاحقة والإرسال 
تحويل مصفوفة 3D NumPy‏ إلى إطار بيانات: 


e‏ الجمع بين إطارات البيانات الخاصة والعامة. 

e‏ إضافة سلسلة من الأعداد الصحيحة أمام المعرف بناءً على سلسلة من التنبؤات الفردية على 
سبيل المثال [0 id 00073f8be 2.id 00073f8be 1 «id 00073f8be‏ ..[ 

«submission والاستعداد للتسليم‎ Pandas دمج جميع البياناتني إطار بيانات‎ e 


pede le = [py 

for df, preds in [(public df, public preds), (private df, 
DEVE e PEGS) E 

for i, uid in enumerate (df.id) : 

لا فل سن > Sine PEE‏ 

single df = pd.DataFrame (single pred, columns-target cols) 
smole GE Aiel exero" || = PENti ox] EOE xe aho 
range(single df.shape[0])] 

preds ls.append(single df) 

preds df = pd.concat(preds 1s) 


preds df.head() 


reactivity deg Mg pH10 deg Mg 50C deg pH10 deg 50C id seqpos 

0 0.685760 0.703746 0.585288 1.857178 0.808561 id 00073f8be 0 
1 2.158555 3.243329 3.443042 4.394709 3.012130 id 00073f8be 1 
2 1.432280 0.674404 0.672512 0.662341 0.718279 id 00073f8be 2 
3 1.296234 1.306208 1.898748 1.324560 1.827133 id 00073f8be 3 
4 0.851104 0.670810 0.971952 0.573919 0.962205 id 00073f8be 4 
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التسليم 

دمج إطار بيانات العينة مع المتوقع على seqpos,‏ 11 لتجنب التكرار والتأكد من أنه يتبع تنسيق التسليم. 

-.CSV أخيرًاء احفظ إطار البيانات الخاص بنافي ملف‎ 
submission > sample df[["id seqpos"]].merge(preds df, 
on-["id seqpos"]) 
submission.to csv("Submission/submission.csv", 
index-False)submission.head() id seqpos reactivity deg Mg pH10 
deg Mg 50C deg pH10 deg 50C 
O0 id 00073£8be 0 0.685760 0.703746 0.585288 1.857178 0.808561 


JL ie OOOO dL 2 USS SAY S AOL sev 0 
2 id 00073f8be 2 1.432280 0.674404 0.672512 0.662341 0.718279 


t (101 ist 1 1 272 


Jump to your position an the leaderboard > 


3 el 0007S S LALA 1 9015208. 3L. OEE I ASO TENS 
4| aol WOO 4 WSN O. ETOSO O OIE 557 ELO) O 95220» 


الاستنتاج 

كانت هذه تجربة فريدة بالنسبة لي حيث كنت أتعامل مع ملفات JSON‏ مع مصفوفات متعددةفي 
عينات واحدة. بعد معرفة كيفية استخدام البيانات» أصبح التحدي بسيطًا للغاية وأصبح لمجتمع 
Kaggle‏ دور أكبرني مساعدتيني تحقيق ذلك. كانت هذه المقالة قائمة على النموذج pais GLS‏ 
النظر عن بناء النموذج» فقد استكشفت مجموعة البيانات واستخدمت تحليل البيانات لفهم بعض 
الأنماط الشائعة. كنت أرغبفي تضمين تجاربي مع نماذج أخرى لتعزيز التدرج و/1.5:11: ولكن بعد 
ذلك قررت تقديم أفضل نموذج ممكن. 

لقد استخدمنا ملفات JSON‏ وقمنا بتحويلها إلى مصفوفات Numpy‏ ثلاثية الأبعاد رمزية ثم 
استخدمنا نموذج 3X GRU‏ للتنبؤ بمعدل تدهور MRNA‏ أخيرًاء استخدمنا الأوزان المحفوظة 
لإنشاء نماذج مميزة لأطوال مختلفة من تسلسل RNA‏ سأقترح عليك استخدام الكود الخاص بي 
وتعديله للتحقق مما إذاكان بإمكانك التغلب على نتيجتيفي لوحة المتصدرين. 


الكود: 
https://dagshub.com/kingabzpro/mR NA -Vaccine-Degradation-Prediction‏ 


المصدر: 


https://pub.towardsai.net/deep -learning-model-to-predict-mrna- 
degradation -153327f32ad4 


N 
N 
Q ك‎ 
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PROTEIN تصنيف عائلة البروتين باستخدام نماذج التعلم العميقة‎ (19 
FAMILY CLASSIFICATION USING THE DEEP LEARNING 
MODELS 

مقدمة: 

يعد فهم العلاقة بين الأحماض الأمينية amino acid‏ وتسلسل البروتين protein sequence‏ مشكلة 
طويلة dM‏ الاحياء molecular biology‏ الجزيئية والآثار العلمية. 

نقوم بتطوير نموذج التعلم العميق الذي يتعلم العلاقة بين تسلسلات الأحماض الأمينية غير المحاذاة 
unaligned amino acid sequences‏ وتصنيفها الوظيفي عبر جميع قواعد بيانات PFAM‏ البالغ 
عددها 17929 عائلة. 


مشكلة العمل /العالم الحقيقي 
المهمة هي: بالنظر إلى تسلسل الأحماض الأمينيةفي مجال البروتينء توقع الفئة class‏ التي ينتمي | 


UU. ( 
MAE 


deoxyribose 
backbone 


نستخدم بيانات التسلسل غير المحاذاة unaligned sequence data‏ لتدريب نماذج التعلم العميق 
لمعرفة التوزيع عبر عائلات البروتين للعثور على التحسين المشترك. 

البيانات: 

نقسم البيانات إلى مجموعة تدريب train‏ وتطوير development‏ ومجموعة اختبار .test‏ نحن 
نستخدم بيانات التدريب لتدريب نماذجناء ويمكن أن تكون بيانات التطوير للتحقق المتبادل 7055© 
0 هه وبيانات الاختبار محفوظة للتقييمات. 


279 19( تصنيف عائلة البروتين باستخدام نماذج التعلم العميقة 


لدينا مجالات مختلفةفي البيانات: 


tamity id sequence name family accession — aligned sequence sequence 


-n  CARB LACST/422. 5 ویر ا 8 ای ا‎ 
Q CPSase L D3 x: PF02787.19 EKLFHAQDDRLFYIAEAF RRG Y. E EV EKLFHAQDDRLFYIAEAE 
54) 


5959 H2T42 TAKRU!225- د‎ - 0 9 ES none 5 
1 SOCS box zx PF07525.18 PPALMOLCA LAIQQ HLGQQRHN Q FPALMDLCALAIQQHLGt 


2 Glug obti PF07591.12 TNGRTGGVVGHAVG TDOVTMCRNVA .TFT TNGRTGGVVGHAVGTU* 
707 
AS8MEKS ALKO 2 RN —-— 
PepSY ^ - PF03413.19 VISEEQA KKIA. LEK L.N VISEEQAKKIALEKINGKY 
05 D1AKJ7 SEBTE > 5 7 2 8 ME EP - 74 x 
SR M 2 PF01625.21 EIILAGGCFWGNVEAYF.ORLN G..VI..KTEVGYTDG EIILAGGCFWGVEAYFGI 
4 ٠ 


وصف الميزات: 

uniprot accession id | $ $ x اسم التسلسل»‎ :sequence name .4 
-start index- $ end index 

Ísle sequence 5‏ ما رن ida‏ هي ميزات الإدخالفي نموذجك. تسلسل الأحماض الأمينية 
لهذا المجال. هناك 20 نوعًا من الأحماض الأمينية الشائعة جدًا (التردد> 1000000(« و 4 
أحماض أمينية غير شائعة تمامًا: ZO BU CX‏ 

:Family accession .6‏ عادة ما تكون هذه هي التسميات الخاصة بنموذجك. رقم المدخل 
بالصيغة PPxxxxx. y (Pfam)‏ . حيث xxxxx‏ هو اسم العائلة » و y‏ هو رقم الإصدار. 

family id 7‏ اسم العائلة من كلمة واحدة. 

aligned sequence .8‏ يحتوي على تسلسل واحد من محاذاة التسلسل المتعدد. 


تحليل البيانات الاستكشافية 

نقوم بتصور البيانات لفهم البيانات ولإزالة القيم المتطرفة outliers‏ الموجودةفي البيانات. نقوم Caf‏ 
بتحليل سلوك البيانات حتى نتمكن من القيام باستخراج الميزات feature extraction‏ وهندسة 
الميزات feature engineering‏ فوق البيانات. 


In [e]: import seaborn as sns 
sns.violinplot(fd['alignment length']) 


»t[12]: «matplotlib.exes. subplots.Axessubplot at 0x25192594608» 


T T T T T um 
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dev|['alignment length'] = dev.aligned sequence.str.len() 
dev.alignment length.hist(bins-30) 
pit.title('Distribution of alignment lengths') 
plt.xlabel('Alignment length 


plt.ylabel('Number of sequences ') 


Text(8, 8.5, ‘Number of sequences') 


Distribution of alignment lengths 


ot sequences 


iber 
5 
3 
8 


Num 
5 
s 
8 


0 500 1000 1500 2000 2500 300 
Alignment length 


توزيع الأطوال المحاذاة. 


el ja aul‏ الميزات وهندسة الميزات: 
تقوم شبكة الإدخال بتعيين تسلسل من الأحماض الأمينية L‏ إلى مجموعة ثنائية (1,26) والتي ليست 
سوى الأبجدية الموجودةفي الأحماض الأمينية, حيث يمثل كل عمود تمثيل الأحماض الأمينية. 


input one-hot pad with zeros 
m TEE CHEESE EROR qr vede 
[0; 0,70; 3 

1 


[0, 0, 0, ... 


ADE [f1, Or 0, ...], )]1, 0, Op ...], 
[0, 1, م0‎ ...], [0; 1, O0, ...], 
[0, 0, 1, i [0, 0, 1, ..-1] 
B " - | reei] 0 56 residual block 
$ E — epumzer [E 
d most likely I r^ 
1 | d e. _ e | e| | 
à class probability [E ١ 
E M 
HE batchnorm | 
gh . (dilsted) 
ii oorwolution 
5 L Reu | 
] [ TER] للك لحت‎ 
Po aseo gn 1 
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يتم تبطين التسلسلات بطول أطول تسلسلفي الدفعة إلى مصفوفة )1,26( تحتوي على تمثيل واحد من 
الأحماض الأمينية ذات الترميز واحد ساخن لمصفوفة التسلسل L, F)‏ التي تحتوي على التضمين 
لبقايا التسلسل. تم تصميم جميع عمليات المعالجةني شبكة التضمين اللاحقة بحيث تكون ثابتة على 
الحشو الذي تم تقديمه لتسلسل معين. 

import string 


def string vectorizer(strng, alphabet-string.ascii lowercase): 


vector = [[0 if char !- letter else 1 for char in alphabet] 
for letter in strng] 

vectorl-np.array(vector) 

shapeout-vectorl.shape[0] 


diff-600-shapeout 


reshapearray-np.zeros((diff,26),dtype-int) 
lenarray-len (strng) 
finalarray-np.vstack((vector,reshapearray,newarray)) 
return finalarray 

trainarrayl-[] 


for sen in traindataframe['sequence']: 


trainarrayl.append(string vectorizer(sen.lower())) 


testarrayl-[] 


for sen in testdataframe['sequence']: 


testarrayl.append(string vectorizer(sen.lower())) 


cvarrayl-[] 


for sen in cvdataframe['sequence']: 


cvarrayl.append(string vectorizer(sen.lower())) 


trainarrayl-np.array(trainarrayl).reshape(len of traindata, 600,26) 


testarrayl-np.array(testarrayl).reshape(len of testdata, 600,26) 
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cvarrayl-np.array(cvarrayl).reshape(len of cvdata, 600,26)‏ 
لدينا تسميات الفئات التى ليست سوى الوصول إلى family accession‏ البيانات هى تسمية مشفرة 
لتعيينها كمتغيرات الهدف .target variables‏ 


from sklearn.preprocessing import LabelEncoder 


labell-LabelEncoder() 
labell.fit(totaldataframe['family accession']) 
trainy-labell.transform(traindataframe['family accession']) 
testy-labell.transform(testdataframe['family accession']) 
cvy-labell.transform(cvdataframe['family accession']) 
تدريب النموذج‎ 
وهو نوع من الشبكات‎ cResNets) الخاصة بنا الشبكات المتبقية‎ ProtCNIN تستخدم شبكات‎ 
التي تتدرب بشكل أسرع وأكثر استقرارًا )» حتى مع وجود العديد من‎ CNN العصبية التلافيفية‎ 
ثابتة من حيث الترجمة» وهي ميزة للعمل مع بيانات تسلسل‎ ProtCNIN الطبقات» تعتبر شبكات‎ 
عمليات التفاف قياسية‎ n المتوسع‎ 1d البروتين غير المحاذاة. العديد من المخلفات. يأخذ الالتفاف‎ 
تسلسل» مما يسمح بجمع المعلومات المحلية والعالمية دون زيادة كبيرةفي عدد‎ deae على كل‎ 
معلمات النموذج.‎ 
import keras as keras 
import tensorflow as tf 
from keras.models import Sequential 
from keras.layers import Dense,Dropout,Flatten,BatchNormalization 
from keras.layers import Conv1D,MaxPoolinglD 
model-Sequential )( 


model.add(Conv1D(2000,kernel size-26,activation-'relu',input shape- (20 
0,26))) 


model.add(MaxPoolinglD(pool size-2)) 
model.add (Dropout (0.4) ) 
model.add(BatchNormalization()) 


model.add(Conv1D(250,20,activation-'relu!')) 


model.add(MaxPoolinglD(pool size-4)) 


model.add (Dropout (0.6) ) 
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model.add(BatchNormalization()) 
model.add(Flatten()) 
model.add(Dense(11836,activation-'softmax!')) 


model.compile(loss-keras.losses.sparse categorical crossentropy,optimi 
zer-'adam',metrics-['accuracy']) 


history-model.fit(trainarray,trainy,epochs-30,validation data-[testarr 
ay,testy],batch size-128) 


نستخدم محسن آدم «Adam optimizer‏ حيث يخضع معدل التعلم للاضمحلال الأسي 
exponential decay‏ 2 وقت التدريب نقدم النموذج بدفعات مرسومة عشوائيًا. 


من e‏ المعاملات الفائقة hyperparameter‏ المركبة هو حجم المجال الاستقبالي receptive‏ 

field size‏ لكل ميزة لكل بقاياء والتي تصف طول التكرارات اللاحقة التي تؤثر على قيمتها. يتبح 

استخدام التلافيف المتوسعة الحصول على أحجام مجال استقبالية أكبر دون حدوث انفجارفي عدد 

معلمات النموذج. على حد علمناء هذا هو أول تطبيق للتلافيف المتوسعة لتصنيف تسلسل البروتين. 

ثم يتم تجميع المصفوفة (1,۴) على طول التسلسل لضمان الثباتفي الحشو. 

74 هو امتداد ل LLSTM‏ حيث يبدأ التكرار الإضافي من الخطوة الزمنية الأخيرة للتكرار 

الأمامى وينتقل للخلف إلى الخطوة الزمنية الأولى للتكرار الأمامى. وبالتالى يمكن التقاط المعلومات 
الواردةفي الخطوات "المستقبلية" وتساعدفي عمل التنبؤاتفي ERA‏ زمنية Aga‏ 

import keras as keras 

import tensorflow as tf 

from keras.models import Sequential 

from keras.layers import Dense,Dropout,Flatten,BatchNormalization 


from keras.layers import Conv1D,MaxPoolinglD 


from keras.layers import LSTM,Bidirectional 
model-Sequential )( 
model.add(Dense(200,activation-'relu',input shape- (200,26))) 
model.add (Dropout (0.4) ) 


model.add(BatchNormalization()) 


model.add(Bidirectional(LSTM(26,dropout-0.2,return sequences-True))) 


model.add(BatchNormalization()) 


model.add(Flatten()) 
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model.add(Dense(11836,activation-'softmax!')) 


model.compile(loss-keras.losses.sparse categorical crossentropy,optimi 
zer-'adam',metrics-['accuracy']) 


history-model.fit(trainarray,trainy,epochs-3,validation data-[testarra 
y,testy],batch size-128) 


الانستنتاج 

يمكن أن تؤدي زيادة عدد معلمات النموذج عبر عدد الفلاتر وحجم النواة وزيادة حجم الدفعة إلى 
تحسيناتفي الأداء. بشكل أساسي» كانت بصمة ذاكرة النماذج التي دربناها محدودة بمقدار الذاكرة 
المتاحة على وحدة معالجة رسومات واحدة, مما استلزم إجراء مقايضات بين هذه العوامل المختلفة. 
من بين التجارب التي أجريناها أفضل أداء ل ProtCINN‏ ل Pfam‏ الكامل يتكون من AES‏ متبقية 
واحدة مع 2000 فلتر. وحجم نواة 26ء وحجم دفعة 128. 

بالإضافة إلى نماذج CNN‏ قمنا Caf‏ بتدريب شبكة عصبية متكررة (RNN)‏ ذات طبقة واحدة 
ثنائية الاتجاه LSTM‏ والتي حققت دقة قدرها 0.982 على مجموعة بيانات Pfam‏ 


المصدر: 


https://vignesh943628.medium. com/protein-family- classification-using-the- 
deep-learning-models-38f4acd35f14 
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20( تصنيف تسلسل البروتين متعدد الفئثات باستخدام التعلم العميق 
Protein sequence multi-class classification using deep learning‏ 
يعد فهم العلاقة بين تسلسل الأحماض الأمينية amino acid sequence‏ ووظيفة البروتين protein‏ 
function‏ مشكلة طويلة الأمدفي الاحياء الجزيئية molecular biology‏ ذات آثار علمية بعيدة المدى. 
على الرغم من ستة عقود من التقدم» لا يمكن للتقنيات الحديثة أن تشرح ثلث تسلسل البروتينات 
الجرثوميةء مما يعيق قدرتنا على استغلال التسلسلات التي تم جمعها من كائنات متنوعة. لمعالجة هذاء 
أبلغنا عن نموذج التعلم العميق deep learning model‏ الذي يتعلم العلاقة بين تسلسل الأحماض 
الأمينية غير المحاذاة وتصنيفها الوظيفي عبر جميع 17929 ible‏ من قاعدة بيانات -Pfam‏ يقوم 
نموذجنا بتحديد موقع التسلسلات من العائلات غير المرئيةفي مساحة التضمين» مما يسمح بتوضيح 
التسلسلات من العائلات الجديدة بدقة. تشير هذه النتائج إلى أن نماذج التعلم العميق ستكون مكوتا 
أساسيّاني أدوات التنبؤ بوظيفة البروتينفي المستقبل. يعد توقع وظيفة البروتين من تسلسل الأحماض 
الأمينية الخام خطوة حاسمة لفهم العلاقة بين النمط الجيني والنمط الظاهري. مع انخفاض تكلفة 
تسلسل الحمض النووي وازدهار مشاريع التسلسل الميتاجينومي ametagenomic sequencing‏ 
ستلعب الأدوات السريعة والفعالة التي تعلق على إطارات القراءة المفتوحة مع الوظيفة دورًا desto‏ 
استغلال هذه البيانات. 


1. مشكلة العمل /العالم الحقيقي 
تصنيف تسلسل البروتين الخاص بالحمض الأميني إلى أحد فصائل العائلة family accession‏ 


يمكن استخدام هذا النموذج للتنبؤ بتسلسل بروتين معين من الأحماض الأمينية. سيولد النموذج ae‏ 
من قيم احتمالية الفئات المقابلة لعدد الفئة أو فصائل العائلة. ستكون أعلى قيمة احتمالية للفئة المقابلة 
هى الفئة المتوقعة لتسلسل البروتين من الأحماض الأمينية. 


2. الأهداف والقيود 


الاهداف: 
هدفنا هو توقع تسلسل البروتين المحدد للحمض الأميني بأكبر قدر ممكن من الدقة. 
القيود: 
1. التفسير :Interpretability‏ التفسير مهم لتسلسل البروتين من الأحماض الأمينية الى جب 
أن تتنبأ بها بشكل صحيح. 


2. التأخير Latency‏ بالنظر إلى تسلسل البروتين للحمض الأميني» يجب أن يتنبأ بالفئة 
الصحيحة لذلك ليست هناك حاجة إلى زمن تأخير عال. 


N 
[o9] 
o3 
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الدقة Accuracy‏ : هدفنا هو توقع تسلسل البروتين المحدد للحمض الأميني SL‏ قدر ممكن 
من الدقة. كلما زادت دقة الاختبار. كان أداء نموذجنا أفض في العالم الحقيقي. 


3 


3. مقاييس الأداء 
هذه مشكلة تصنيف متعددة الفئات multi-class classification‏ مع 17929 فئة مختلفةء لذلك 


خطأ السجل متعدد الفئات Multi- Class Log-loss‏ : لقد استخدمنا نموذج التعلم العميق 
مع طبقة الانتروبيا المتقاطعة icross-entropy layer‏ النهاية مع 17929 وحدة 
isoftmax‏ لذلك. هدفنا هو تقليل خطأ السجل متعدد coal‏ / خطأ الانتروبيا المتقاطعة. 
الدقة Accuracy‏ : يخبرنا هذا بمدى دقة أداء نموذجناني توقع التعبيرات „expressions‏ 


.1 


2 


4. بيانات المصدر 
يتم توفير البيانات بواسطة kaggle‏ حتى نتمكن من التنزيل مباشرة من رابط Kaggle‏ المحدد - 
https://www.kaggle.com/googleai/pfam-seed-random-split‏ 


5. نظرة عامة على البيانات 
الطريقة المستخدمة لتفسيم البيانات إلى طيات folds‏ تدريب training‏ / تطوير /dev‏ اختبار testing‏ 
هي 25 تقسيم عشوائي. 


يجب استخدام بيانات التدريب لتدريب نماذجك. 

يجب استخدام بيانات التطوير Dev‏ (التطوير (development‏ حلقة تحقق قريبة (ربما 
لضبط المعلمة الفائقة hyperparameter tuning‏ أو التحقق من صحة النموذج model‏ 
.(validation‏ 

يجب حجز بيانات الاختبار للتقييمات الأقل تكرارًا ‏ وهذا يساعدفي تجنب الضبط الزائد 
على بيانات الاختبار الخاصة بك. حيث يجب استخدامها بشكل غير متكرر. 


Distribution of family sizes for dev Distribution cf family sizes for test 
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Distribution cf family sizes for train Distribution of alignment lengths in train 
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Family size Alignment length 
توزيع أطوال المحاذاةفي التدريب‎ 
محتوى الملف‎ 
اختبار) بها عدد من الملفات. يحتوي كل ملف من هذه الملفات على ملف‎ c) glas (تدريب»‎ &b كل‎ 
والذي يحتوي على الحقول التالية:‎ «des كل‎ CSV 


sequence: 
HWLQMRDSMNTYNNMVNRCFATCIRSFQEKKVNAEEMDCTKRCVTKFVGYSQRVALRF 
AE 


family accession: PF02953.15 
sequence name: C5K6N5 PERM5/28-87 


aligned sequence: 
....HWLQMRDSMNTYNNMVNRCFATCI........... RS.F....QEKKVNAEE.....MDCT....KRCVTKF 
VGYSQRVALRFAE 


family id: zf-Timi0 DDP 


وصف الحقول: 
sequence e‏ عادةً ما تكون هذه هى ميزات الإدخالفي نموذجك. تسلسل الأحماض الأمينية 
لهذا المجال. هناك 20 نوعا من الأحماض الأمينية الشائعة جد (التكرار frequency‏ > 


N 
00 
00 
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:Pamily accession e‏ عادة ما تكون هذه هي التسميات الخاصة بنموذجك. رقم المدخل 
بالصيغة PExxxxx. y (Pfam)‏ . حيث xxxxx‏ هو ES‏ العائلة » و y‏ هو رقم الإصدار. بعض 
قيم y‏ أكبر من عشرة وبالتالي فإن "لا" تتكون من رقمين. 

id o‏ بإلقدصة: اسم من كلمة واحدة للعائلة. 

sequence name e‏ اسم التسلسل » بالصيغة: 

"$uniprot accession id/$start index-$end index" 

:align sequence e‏ يحتوي على تسلسل واحد من محاذاة تسلسل متعدد (مع بقية أفراد 

الأسرةفي البذرةء مع الاحتفاظ بالفجوات). 


بشكل عام يعتبر family accession‏ هو التسمية dabel‏ والتسلسل sequence‏ )3 
التسلسل المحاذي (aligned sequence‏ هو الميزة المدرية. 


محتويات هذه الحقول هي نفسها البيانات المقدمةفي تنسيق ستوكهولم بواسطة PFam‏ 
atftp: //ftp.ebi.ac.uk/pub/databases/Pfam/releases/Pfam32.0/Pfam- A.seed.gz‏ 


6. المكتبات والحزم 
لقد استخدمنا تقريًا جميع مكتيات التعلم العميق التي استخدمناها عادة مثل «pandas‏ و .numpy‏ 
و sklearn‏ < و Keras‏ . وما إلى ذلك. ويمكننا تثبيتها ببساطة باستخدام 
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تحديد اسم الحزمة هنا'’ pip install‏ 


7. المعالجة المسبقة والتخصيص 

لقد أجرينا بعض المعالجة المسبقة مثل التسلسل بالأحرف الصغيرة واستخدمنا الحد الأقصى لطول 
التسلسل البالغ 0 وتحويل البيانات النصية إلى شكل رقمي باستخدام sklearn countvectorizer‏ 
أو دالتنا المحددة لإنشاء قاموس وتعيين الحرف إلى نموذج الفهرس والفهرس إلى شكل حرف. 


8. النمذجة والتدريب 
لذا فقد وصلنا أخيرًا إلى آخر عملية لملائمة النموذج model fit‏ وبذلك نكون قد أكملنا 190 من 
العملية. لذا فإن هدفنا الرئيسي هنا هو إعطاء تسلسل البروتين els‏ تلو الآخر وتقليل خطأ الانتروبيا. 
لقد قمنا بتصميم بنية الشبكة العصبية الخاصة بنا على النحو التالي: 
input s = Input (shape- (100,24) )‏ 
X= Conv1D(32, 1 , strides-1,padding-'valid', name-'convid 1',‏ 


kernel initializer-glorot uniform(seed-0)) (input s) 
X > MaxPoolinglD (pool size-2) (X) 
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X1 - BatchNormalization(axis-2, name-'batch normalization 1')(X) 
X2 — Activation('relu',name-'activation 1') (X1) 

X3 = BatchNormalization(axis-2, name-'batch normalization 2') (X2) 
X4 = Activation('relu',name-'activation 2') (X3) 

Cony DPE neme edes dep ac iva Merrame ConA Zl,‏ > كير 
kernel initializer-glorot uniform(seed-0)) (X4)‏ 

X6 = BatchNormalization(axis-2, name-'batch normalization 3') (X5) 
رذ‎ eise IOn V re nemes CELTE ION XO) 

rides OMEN velig, stehe EOI Si y;‏ ن 1 م Conid 2g‏ = واد 
kernel initializer-glorot uniform(seed-0)) (X7)‏ 

X8 = Dropout (0.5,name-'d1') (X8) 

X8 MaxPoolinglD(pool size-2) (X8) 

XO = Convide; Estes Macc = valig; meme= Connie 4, 
kernel initializer-glorot uniform(seed-0)) (X2) 

X9 = Dropout(0.5,name-'d2') (X9) 

X9 = MaxPoolinglD(pool size-2) (X9) 

0 = Add() ([X8, X9]) 

1 < Activation('relu',name-'activation 4') (X10) 

1 = Dropout(0.2,name-'d3') (X11) 

2 = BatchNormalization (axis-2,name-'batch normalization 4') (X11) 
SE nebst on EEL Rame Qel valet ON S M CXTRA») 
4 
5 
6 


= Dropout(0.5,name-'d4') (X13) 

— Flatten(name-'flatten 1') (X14) 

= Dense S nemes e" E suse(029H0) ; leue imitielizsr = 
lorot uniform(seed-0)) (X15) 

IV = Activation('softmax',name-'activation 6') (X16) 


Aa K K K S 


دعونا نفهم المعمارية: 
كما نری» لدينا شكل إدخال (100,24)أي (8026,100,24)نظرًا لأن لدينا حدًا أقصى لطول 
cencoded‏ لذا فهو على سبيل المثال: 


for eg: we have shape (1,2,3) 
So one hot encode of this look like 
LESE O ONO 3E ONO O 3E] T 


هنا 1 وصف مكان تقديم فهرس char‏ وبهذه o JE‏ يتم تشفير وتمثيل جميع بيانات التدريب 
والاختبار والتطوير الخاصة بنا. 

من المعماريةء يمكننا أن نلاحظ أن لدينا 4 طبقات التفاف convolution layer‏ أحادية البعد 4D‏ 
وطبقة كثيفة Dense layer‏ وطبقة التجميع .Maxpooling‏ وطبقة التسرب Dropout‏ وطبقة 
.BatchNormalization‏ وطبقة التنشيط Activation‏ وطبقة التسوية .Flatten‏ لقد حددنا تهيئة 
الوزن weight initialization‏ إذا لم تحدد طريقة تهيئة الوزن بشكل صريحفي Keras‏ فإنها تستخدم 
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تهيئة Xavier‏ المعروفة أيضًا باسم تهيئة 610۲0۲ . الهدف من كل هذه العوامل المبدئية للوزن هو إيجاد 
تباين جيد للتوزيع الذي يتم من خلاله استخلاص المعلمات الأولية. 


«UIN Aie حول‎ 


Xe co CODZ, db n gnesexelesEdLzjsevelohümer val Id , neme= eomle TEV c 
kernel initializer-glorot uniform(seed-0)) (input s) 


هنا 32 حدد 32 فلتراً بحجم نواة 1 نظرًا UM‏ استخدمنا فلتراً مختلفًاني طبقة الالتفاف حتى تعلمت 
الشبكة معلمة أفضل. لقد استخدمنا "padding - "valid‏ لذلك لن يكون هناك حشوة. 


لقد استخدمنا طبقة التسرب بين طبقة الالتفاف لأنها تساعد على منع الضبط الزائد .overfitting‏ لقد 
استخدمنا هنا معدل تسرب dropout rate‏ مختلف. أي 0.5 حددنا أنه سيتم حذف 0.5 ./ من العقد 
أثناء التمرير الأمامي والخلفي نظرًا لعدم معرفة أي معلمة أثناء الانتشار الخلفي „backpropagation‏ 
نظرًا لأن الشبكة تزيل الوحدات Ég‏ من التوصيلات. فإن إزالة عدد العقد للاتصال يكون عشوائيًا. 
حتى نتمكن من الحصول على معدل التسرب الأمثل عن طريق الضبط الفائق hyper-tuning‏ أو 
استخدام معدلات التسرب المختلفة.في حالتناء لاحظت خلال الفترات أننا كنا نعاني من الضبط الزائد 
لذا حاولت بمعدل تسرب صغير إلى كبير لتجنب الضبط الزائد (0.5-0.1). 


بعد ذلك. لدينا طبقة max-pooling‏ حيث يتم تقليل الميزات بطريقة هادفة تساعدفي اختزال العينة 
downsample‏ من طبقة الالتفاف وكما نعلم مزايا مثل ثبات الموقع location invariance‏ وثبات 
النطاق scale invariance‏ لطبقة G.max-pool‏ شبكتناء استخدمنا طبقة تجميع أحادية البعد 1D‏ 
max pool‏ بحجم 2 أثناء التكرار عبر خريطة المعالم feature map‏ لفهم المزيد عن الشبكة العصبية 
التلافيفية والطبقات. قم بزيارة هذا الرابط. 

أخيرًاء لدينا طبقة كثيفة تحتوي على وحدات تنشيط oY GE relu‏ طبقة الإخراج تحتوي على 2910 
وحدة -softmax‏ سيولد احتمالية فئة 2910 والتي تكون مجموعها 1. سنقوم بتقليل الخطأ عن طريق 
إعادتها أثناء الانتشار الخلفي. وبهذه الطريقة» سيتم تدريب نموذج شبكتنا العصبية على تصنيف تسلسل 
البروتين. 


التدريب لمدة 100 فترة epochs‏ دون ضبط الشبكة حصلت على النتائج التالية: 
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—— Validation loss 
عست‎ tein loss 


Categorical crossentropy lass 


04 4 — est arcuracy 
—— Train accuracy 


H 26 40 e 80 100 

مخطط الدقة والخطاً 
كما يمكننا أن نلاحظ أن الخطأ والدقة لهما فرق بين بيانات التدريب والاختبار» أي الضبط الزائد 
.overfitting‏ 
بعد ضبط التسرب dropout‏ وإضافة طبقة التجميع القصوى max-pooling layer‏ وتسوية الدفعات 
batch normalization‏ حصلت على دقة اختبار تبلغ 799- 
إذن» كيف حققت X»‏ تزيد عن 90/ أقل من نموذج مختلف مع ضبط المعلمة الفائقة 


:hyperparameter tuning 


puelle un uen ul I mee neut e mee E rer i + 
| Model | Accuracy | 
4----------------------2--------------2---2------------ L---------- + 
| CNN without hyperparameter tuning | 0.8423 | 
| CNN with dropout and BatchNomalization | 06.9211 | 
| CNN with dropout,BatchNormalization & Max-pooling | 60.9434 | 
| Final CNN with hyperparameter tuning | 0.9922 | 
4-—--------------------------------------------------4---------- + 
نتائج الاختبار‎ .9 


نظرًا o‏ لدينا بيانات بتنسيق dev «test train‏ لذلك استخدمنا بيانات الاختبار للتحقق من الدقة. 
بعد الاختبار حصلنا على هذه النتائج النهائية: 


Score = model.evaluate(finaltest,ytest , verbose-1) 
print("Test loss:",score[0]) 

print("Test accuracy:",score[1])$soutput 

TUO TG T, ] - 2s 251us/step 
Test loss: 0.0511749743080253 
Testeaccuracey:9099927/808/029/6/059/90/9 
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0. اختبار في العالم الحقيقي 


1. المعالجة المسبقة للتسلسل بأحرف صغيرة وأخذ أقصى طول للتسلسل يبلغ 100. 
2. تعيين حرف إلى فهرس أو شكل رقمي. 
3. استخدام نموذجنا للتنبؤ النهائي بتسلسل بروتين من الأحماض الأمينية. 


def predict(text): 
text-text.lower() 
final-[] 
segi-[] 
EOE S ass (oere S 
x 02 1 Cha index ا ع كك‎ Sl 
seql.append(str(x)) 
final.append (seq1) 
final sequence -sequence.pad sequences (final, 
maxlen-100,padding-'post') 


nb classes = 24 
targets - np.array(final sequence) 
one hot train = np.eye(nb classes) [targets] 
res-model.predict(one hot train) 
pred - labelencoder.inverse transform([np.argmax (res)]) 
return ("Given protein sequence '()' belongs to class family 
accession 
()".format(text.upper(),pred[0]))predict('hcqltgrapgfghhishshrrtkrr 
fdpnighkrywlpsegrhirltlstkaiktvdti')foutput 
"Given protein sequenc 
'HCOLTGROPGFGHHISHSHRRTKRRFDPNIOHKRYWLPSEGRHIRLTLSTKAIKTVDTI' 
belongs to class family accession PF0083019" 


a jo .11‏ من النطاق 
نظرًا لأننا حصلنا على نتيجة جيدة ولكن يمكن تحسينها بشكل أكبر: 
من أجل الحصول على مزيد من الدقة يمكن تدريب النموذج على مجموعة بيانات كبيرة. 
من خلال المزيد من ضبط المعلمات الفائقةء يمكن تحقيق المزيد من الدقة. 
يمكن استخدامه لمشكلة تصنيف تسلسل البروتين الأخرى عن طريق ضبط أو زيادة تعقيد 
النموذج. 
المصدر: 


https://medium.com/(a)jangidajay27 1/pfam-seed-random-split-protein- 


sequence-multu-class- classification-using-deep-learning-a0b172015c67 
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